Strukturierung und Analyse linguistischer Korpusdaten WiSe 17/18

Christian Riepl, Stephan Lücke

Im Rahmen des Moduls "Angewandte Strukturierung und Analyse linguistischer Daten" vermittelt das Seminar informatische Methoden zur Strukturierung, Abbildung, Annotation und Analyse von Sprach- und Textkorpora auf unterschiedlichen linguistischen Beschreibungsebenen. Das Modul richtet sich an Studentinnen und Studenten, die eine Abschlussarbeit auf dem Gebiet der Korpuslinguistik vorbereiten. Ein wesentliches Ziel ist die Anwendung der erlernten Methoden auf deren Gegenstand und Fragestellung. Ein bereits in Absprache mit dem Betreuer der Masterarbeit ausgewähltes Sprach- oder Textkorpus ist Voraussetzung für die Teilnahme. Erwartet werden neben pünktlichem Erscheinen, regelmäßiger Anwesenheit und aktiver Mitarbeit eine kurze Vorstellung des Vorhabens und ein Thesenpapier zu einem auf korpuslinguistische Probleme bezogenem Thema der Informatik.
Digital Humanities Virtual Laboratory (DH-Vlab)

Im Rahmen der Lehrveranstaltung wird die virtuelle Lehrumgebung dhvlab eingesetzt werden. Dabei handelt es sich um eine serverbasierte Linuxinstallation, die ortsunabhängig auch von außerhalb der LMU verwendet werden kann.

Die Teilnehmer der Lehrveranstaltung werden gebeten, sich nach Möglichkeit bereits vor Beginn der Veranstaltung unter folgender Adresse zu registrieren: https://dhvlab.gwi.uni-muenchen.de/mgmt/labuser/signup (Anleitung/Erläuterungen: https://dhvlab.gwi.uni-muenchen.de/index.php/Register).

Es ist der Kurs „KorpLing-MA“ auszuwählen!

Referate

Bitte konzipieren Sie Ihre Referate als Beiträge in DH-Lehre. Alle Referate müssen geeignete Übungen beinhalten, die während der Sitzung von allen Seminarteilnehmern ausgeführt werden müssen.

Bitte informieren Sie uns rechtzeitig per Mail, wenn Sie an einer Sitzung nicht teilnehmen können. Besonders gilt das für den Fall, dass Sie in einer Sitzung für ein Referat eingeteilt sind.

Kontakt

Bitte kontaktieren Sie uns vorzugsweise per Mail:

  • riepl@lmu.de
  • luecke@lmu.de

Gliederung:

1. Einführung (16.10.2017)
Themengebiete (Überblick über die im der Veranstaltung behandelten Themen)
Dos and Don'ts bei der Arbeit mit Rechnern (ITG/slu) (Grundsätzliche Empfehlungen (nicht nur) für Korpuslinguisten)
2. Überblick über vorhandene Corpora (Auswahl; Frau Di Tano) - Vorstellung eigener Corpora (Frau Bayer, Frau Cosenza) (23.10.2017)
Textcorpora - Überblick (ITG/slu)
3. Corpora der Seminarteilnehmer (Vorstellung) (30.10.2017)
4. Der Editor Vim (Referat Frau Bayer) (06.11.2017)
Der Editor Vim (ChB)
5. Zeichenkodierung (Referat Herr Wöhrmann) (13.11.2017)
Zeichencodierung
Zeichenkodierung (ITG/slu)
6. Die regulären Ausdrücke (Referat Frau Hartley) (20.11.2017)
Reguläre Ausdrücke
Die regulären Ausdrücke (ITG/slu)
7. Die Unix-Shell (Bash) (Referat Frau Bayer); die dhvlab-cloud (27.11.2017)
Die Unix-Shell (ChB)
8. Unix-Shell-Fortsetzung (iconv * | bash); Das relationale Datenmodell; Einführung in MySQL (PhpMyAdmin) (Referat Frau Mandelsperger) (04.12.2017)
Relationale Datenbanken
Backticks, Hochkommata, Anführungszeichen ... (ITG/slu)
9. SQL I - Einfache select-Statements (Referat Frau Wolff) (11.12.2017)
SQL I: Einfache select-Statements
10. SQL II - Joins (Referat Frau Di Tano) (18.12.2017)
SQL II: JOINS (Ergänzend: Erzeugung von N-Grammen, Gruppierung nach POS-Kombinationen, Erzeugung von Views; Einführung von "union"; Erzeugung eines)
11. SQL III - Nachtrag: Full outer Join (s. Kommentar zu Beitrag "SQL II"); Funktionen (Vertiefung; Referat Herr Ruan) (08.01.2018)
Datums- und Zeitfunktionen
Sitzung 11: Anzeige von Tokens im Kontext; Einführung in Rechnen mit SQL (ITG/slu)
12. Stringfunktionen (replace(), substring_index(), substring(), reverse(), upper(), lower(), concat(), concat_ws(), trim(), left(), right(), hex(), unhex(), soundex(), levenshtein() (!); Referat Frau Hartley) (15.01.2018)
String functions
SQL-Funktionen (ITG/slu)
13. Ermittlung von Korpus-Kennzahlen I (Korpus Frau Bayer) (22.01.2018)
Datenbankabfrage (ChB)
14. Ermittlung von Korpus-Kennzahlen II (Korpus Frau Bayer) (29.01.2018)
Datenbankabfrage (ChB) (Anzahl Wörter pro Satz, Anzahl Chunks pro Satz!)
15. Aufbereitung von Textdaten für die Datenbank (Korpus Frau Bayer) (14.02.2018)
Strukturierung, Tokenisierung, Tagging (ITG/chr) (Nachholung der Sitzung vom 5. Feburar 2018)
Allgemeine Beiträge zur Veranstaltung:
Korpling_MA - Teilnehmer und Themen (WiSe 17/18)
Tokenisierung eines Textcorpus (ITG/slu)
Das Programm Treetagger (ITG/slu)
MySQL - Installations- und Bedienungsszenarien (ITG/slu)
Verwendung des Wordpress-Plugins "SQLtoHTML" (ITG/slu)

Zeige alle in der Veranstaltung veröffentlichten Beiträge.

Schreibe einen Kommentar