Strukturierung und Analyse linguistischer Korpusdaten WS 16/17

Christian Riepl, Stephan Lücke

Im Rahmen des Moduls "Angewandte Strukturierung und Analyse linguistischer Daten" vermittelt das Seminar informatische Methoden zur Strukturierung, Abbildung, Annotation und Analyse von Sprach- und Textkorpora auf unterschiedlichen linguistischen Beschreibungsebenen. Das Modul richtet sich an Studentinnen und Studenten, die eine Abschlussarbeit auf dem Gebiet der Korpuslinguistik vorbereiten. Ein wesentliches Ziel ist die Anwendung der erlernten Methoden auf deren Gegenstand und Fragestellung. Ein bereits in Absprache mit dem Betreuer der Masterarbeit ausgewähltes Sprach- oder Textkorpus ist Voraussetzung für die Teilnahme. Erwartet werden neben pünktlichem Erscheinen, regelmäßiger Anwesenheit und aktiver Mitarbeit eine kurze Vorstellung des Vorhabens und ein Thesenpapier zu einem auf korpuslinguistische Probleme bezogenem Thema der Informatik.

Gliederung:

1. Sitzung (19.12.2016)
Textextraktion aus pdfs
2. SQL: Joins (09.01.2017)
Tabellenverknüpfung durch JOINs (Stefanie Eckmann)
3. Tree-Tagger (16.01.2017)
Part of Speech Tagging mit dem TreeTagger (Frau Büchl)
4. SQL-Funktionen (23.01.2017)
SQL-Funktionen (ITG/slu)
5. TreeTagger-Chunks; MySQL-Variable (06.02.2017)
SQL: Verwendung von Variablen (ITG/slu)
Select-Statement: Gruppierung von Tokens nach Chunk-ID (ITG/slu)
Allgemeine Beiträge zur Veranstaltung:
Zeichenkodierung (ITG/slu)
UTF-8 (ITG/slu)
Byte Order Mark (BOM) (ITG/slu)
Die regulären Ausdrücke (ITG/slu)
Webextraktion mit wget
Linguistische Datenverarbeitung mit python
XML-Extraktion mit python
Die Programmiersprache AWK: Grundlagen (ITG/slu)
Datenmodellierung - Das relationale Datenmodell (ITG/slu)
Datenimport in MySQL-Datenbank mit Programm mysqlimport (ITG/slu)
Backticks, Hochkommata, Anführungszeichen ... (ITG/slu)
SQL: Umgang mit Groß-/Kleinschreibung (Kollationierung) (ITG/slu)
Reguläre Ausdrücke (RAs) in MySQL (ITG/slu)

Zeige alle in der Veranstaltung veröffentlichten Beiträge.

Schreibe einen Kommentar