Einführung in die Geolinguistik (ITG/slu)

1. Was ist Geolinguistik? Geolinguistik ist die Variation der Sprache in Abhängigkeit vom Raum Banal: In München spricht man anders als in Hamburg, Paris oder Rom, und in Miesbach anders als in Kufstein Geolinguistik beschäftigt sich praktisch ausschließlich mit der gesprochenen Sprache, nicht mit der Schrift- bzw. Standardsprache 1.1. Dimensionen sprachlicher Variation Der geographische Raum […]

Weiterlesen →

Zeichenkodierung – oder: Warum ist ein A kleiner als ein a?

8. Sprache, Literatur und Computer Ein Computer ist eine Maschine, die rechnet. Rechnen geschieht mit Zahlen. Wie kommen Schriftzeichen in den Computer und wie kann ein Computer auch mit Schriftzeichen, Sprache und Text rechnen? Was meinen wir mit „digital“ und „Digitalisierung“, wenn wir von der Verarbeitung von Schrift, Sprache und Text sprechen? 8.1. Gegenstand der […]

Weiterlesen →

XML-Extraktion mit python

16. Über python Linguistische Datenverarbeitung mit python 17. Beispiel: Parsing eines XML-Dokuments und Ausgabe aller <p>-Inhalte #!/usr/bin/env python # -*- coding: utf-8 -*- import re import xml.etree.ElementTree as etree f = open(‚greif.csv‘, ‚w‘) #PARSING tree = etree.parse(‚greif.xml‘) root = tree.getroot() #DEBUG: OUTPUT TAGS for x in root.iter():     print x.tag + ‚ = ‚ + […]

Weiterlesen →

Webextraktion mit wget

18. Über wget wget ist ein Kommandozeilenprogramm, mit dem Dateien aus dem Internet heruntergeladen werden können. 19. Rekursive Extraktion: https://www.gnu.org/software/wget/manual/wget.html#Recursive-Retrieval-Options wget -r -l 1 http://www.spiegel.de/kultur Beispiel: Extraktion Zeitungskorpus: Kultur-Seite und die Artikel, auf die diese verweist (Rekursionstiefe 1); weitere Anwendungsmöglichkeiten: Extraktion von Chats/Foren etc.(Aufbau großer Webkorpora; Stichwort: Web als Korpus) 20. Extraktion nach URL-Muster: mkdir […]

Weiterlesen →

Die regulären Ausdrücke (ITG/slu)

22. Einführung Das Konzept der regulären Ausdrücke (abgekürzt „RA“ oder „RE“ für engl. Regular Expressions) ist ein System zur variablen bzw. vereinfachten Beschreibung von Zeichenketten („strings“). Sie werden praktisch ausschließlich zum Auffinden von Zeichenketten in Textdokumenten verwendet. Als ihr „Erfinder“ gilt der amerikanische Mathematiker Stephen Cole Kleene (1909-1994). Ursprünglich aus dem Bereich der Informatik bzw. der […]

Weiterlesen →