Einführung in die Geolinguistik (ITG/slu)

1. Was ist Geolinguistik? Geolinguistik ist die Variation der Sprache in Abhängigkeit vom Raum Banal: In München spricht man anders als in Hamburg, Paris oder Rom, und in Miesbach anders als in Kufstein Geolinguistik beschäftigt sich praktisch ausschließlich mit der gesprochenen Sprache, nicht mit der Schrift- bzw. Standardsprache 1.1. Dimensionen sprachlicher Variation Der geographische Raum […]

Weiterlesen →

Zeichenkodierung – oder: Warum ist ein A kleiner als ein a?

7. Sprache und Computer 7.1. Gegenstand der Sprachwissenschaften Sprache: gesprochen – geschrieben Text: Wörter und Sätze Zeicheninventar: Buchstaben, Ziffern, Interpunktionszeichen, etc. Deskriptive Linguistik: Beschreibung der Sprache auf unterschiedlichen Ebenen, nach W. Richter: vgl. dazu Laut/Zeichen Phonetik/Phonologie/Orthographie Wort Morphologie Wortfügung Morphosyntax Satz Syntax Satzfügung „Satzsyntax“ Text (?) „Textsyntax“ (?) 7.2. Computer und Digitaltechnik Rechner: kann nur […]

Weiterlesen →

XML-Extraktion mit python

15. Über python Linguistische Datenverarbeitung mit python 16. Beispiel: Parsing eines XML-Dokuments und Ausgabe aller <p>-Inhalte #!/usr/bin/env python # -*- coding: utf-8 -*- import re import xml.etree.ElementTree as etree f = open(‚greif.csv‘, ‚w‘) #PARSING tree = etree.parse(‚greif.xml‘) root = tree.getroot() #DEBUG: OUTPUT TAGS for x in root.iter():     print x.tag + ‚ = ‚ + […]

Weiterlesen →

Webextraktion mit wget

17. Über wget wget ist ein Kommandozeilenprogramm, mit dem Dateien aus dem Internet heruntergeladen werden können. 18. Rekursive Extraktion: https://www.gnu.org/software/wget/manual/wget.html#Recursive-Retrieval-Options wget -r -l 1 http://www.spiegel.de/kultur Beispiel: Extraktion Zeitungskorpus: Kultur-Seite und die Artikel, auf die diese verweist (Rekursionstiefe 1); weitere Anwendungsmöglichkeiten: Extraktion von Chats/Foren etc.(Aufbau großer Webkorpora; Stichwort: Web als Korpus) 19. Extraktion nach URL-Muster: mkdir […]

Weiterlesen →

Die regulären Ausdrücke (ITG/slu)

21. Einführung Das Konzept der regulären Ausdrück (abgekürzt „RA“ oder „RE“ für engl. Regular Expressions) ist ein System zur variablen bzw. vereinfachten Beschreibung von Zeichenketten („strings“). Sie werden praktisch ausschließlich zum Auffinden von Zeichenketten in Textdokumenten verwendet. Als ihr „Erfinder“ gilt der amerikanische Mathematiker Stephen Cole Kleene (1909-1994). Ursprünglich aus dem Bereich der Informatik bzw. der […]

Weiterlesen →