Einführung in die Geolinguistik (ITG/slu)

  1. Einführung 1.1. Sprache und Raum Es ist allgemein bekannt, dass an unterschiedlichen Orten unterschiedlich gesprochen wird. Dabei kann es um Nuancen der Aussprache gehen, die sich vielleicht sogar innerhalb eines Stadtgebiets wahrnehmen lassen, oder auch um markante Differenzen wie etwa die Verwendung vollkommen unterschiedlicher Sprachen wie etwa, wenn man von München nach Paris […]

Weiterlesen →

Zeichenkodierung – oder: Warum ist ein A kleiner als ein a?

7. Sprache und Computer 7.1. Gegenstand der Sprachwissenschaften Sprache: gesprochen – geschrieben Text: Wörter und Sätze Zeicheninventar: Buchstaben, Ziffern, Interpunktionszeichen, etc. Deskriptive Linguistik: Beschreibung der Sprache auf unterschiedlichen Ebenen, nach W. Richter: vgl. dazu Laut/Zeichen Phonetik/Phonologie/Orthographie Wort Morphologie Wortfügung Morphosyntax Satz Syntax Satzfügung „Satzsyntax“ Text (?) „Textsyntax“ (?) 7.2. Computer und Digitaltechnik Rechner: kann nur […]

Weiterlesen →

XML-Extraktion mit python

15. Über python Linguistische Datenverarbeitung mit python 16. Beispiel: Parsing eines XML-Dokuments und Ausgabe aller <p>-Inhalte #!/usr/bin/env python # -*- coding: utf-8 -*- import re import xml.etree.ElementTree as etree f = open(‚greif.csv‘, ‚w‘) #PARSING tree = etree.parse(‚greif.xml‘) root = tree.getroot() #DEBUG: OUTPUT TAGS for x in root.iter():     print x.tag + ‚ = ‚ + […]

Weiterlesen →

Webextraktion mit wget

17. Über wget wget ist ein Kommandozeilenprogramm, mit dem Dateien aus dem Internet heruntergeladen werden können. 18. Rekursive Extraktion: https://www.gnu.org/software/wget/manual/wget.html#Recursive-Retrieval-Options wget -r -l 1 http://www.spiegel.de/kultur Beispiel: Extraktion Zeitungskorpus: Kultur-Seite und die Artikel, auf die diese verweist (Rekursionstiefe 1); weitere Anwendungsmöglichkeiten: Extraktion von Chats/Foren etc.(Aufbau großer Webkorpora; Stichwort: Web als Korpus) 19. Extraktion nach URL-Muster: mkdir […]

Weiterlesen →

Die regulären Ausdrücke (ITG/slu)

21. Einführung Das Konzept der regulären Ausdrück (abgekürzt „RA“ oder „RE“ für engl. Regular Expressions) ist ein System zur variablen bzw. vereinfachten Beschreibung von Zeichenketten („strings“). Sie werden praktisch ausschließlich zum Auffinden von Zeichenketten in Textdokumenten verwendet. Als ihr „Erfinder“ gilt der amerikanische Mathematiker Stephen Cole Kleene (1909-1994). Ursprünglich aus dem Bereich der Informatik bzw. der […]

Weiterlesen →