Seminarbeitrag | Lehre in den Digital Humanities

In meiner Masterarbeit soll die tatsächliche Verwendung der neu eingeführten Phoneme/Grapheme Ś und Ź im Montenegrinischen sowohl in der Schriftsprache, als auch im mündlichen Gebrauch erforscht werden.

Da es bisher keine vorhandenen, öffentlich zugänglichen Korpora gibt (evtl. Montecorpus seit 2009), wäre als Einstieg eine Sammlung an Wörtern aus verschiedenen Quellen (Internetseiten der Regierung, Foren, Zeitungen, Gesetzestexte etc.) gedacht, deren Gebrauch anschließend mit dem angekündigten und hoffentlich bald erscheinenden montenegrinischen Wörterbuch zu vergleichen wären. Interessant wäre dabei, die temporäre Markierung des Wortschatzes zu berücksichtigen. Im Gegensatz zum Kroatischen, welches wegen seiner Neologisierung häufiger Untersuchungsgegenstand in der Südslavistik, gilt das Montenegrinsiche als eine archaisierte Sprache (vgl. Lexik). Ziel ist in beiden Fällen die Abgrenzung vom Serbischen.

Der montenegrinischen Grammatik zufolge könnte man auf einen Demokratisierungsprozess/Einfluss der gesprochenen Sprache auf die Schriftsprache vermuten, welches in Form der Einführung der allgegenwärtigen Phoneme in das Schriftsystem mithilfe ursprünglich polnischer Grapheme erfolgte (vgl. oben).

In meiner Bachelorarbeit fiel die Übereinstimmung zwischen Alltags-/und Jugendsprache mit der Sprachnorm, nicht jedoch der Amtssprache auf- wider Erwarten, da die Sprachreform und der Standardisierungsprozess nur knapp ein Jahr nach Erlangung der Eigensprachlichkeit einsetzten.

Die genaue Benennung der Arbeit ist noch nicht erfolgt.

Im Folgenden zur Umsetzung meines Vorhabens:

Als Medium/ Quellen würde ich, wie schon oben bereits erwähnt, Zeitungen, Homepages der Regierung und des Parlaments, Gesetzestexte, Liedtexte, Romane etc. verwenden, da man aus verschiedenen Textsorten/ diversen Gattungen schöpfen kann.

Der Umfang der Quellen dürfte schätzungsweise bei ca. 100- 150 Quellen liegen.

Wichtig wäre dabei, die Verwendung der Phoneme ś, ź (graphemisch und phonetisch, letzteres womöglich per Sprachaufzeichnungen) zu untersuchen und erfassen.

Datenstrukturen:

Zuerst erfolgt die Umwandlung der Texte in Zeichencodierung utf-8, um eine Einheitlichkeit der Textcodierung zu gewährleisten.

Daraufhin werden überflüssige Zeichen (Leerzeichen, Absätze etc.) eliminiert.

Im nächsten Schritt erfolgt die Markierung von Abkürzungen und Satzzeichen, wie auch die Zerlegung in einzelne Tokens.

Sätze und Tokens werden dann gezählt und Wortarten bestimmt.

Der letzte Schritt ist die Speicherung in eine Datenbank.

Tools:

-gvim (Texteditor; reguläre Ausdrücke)

-cygwin (sed, gawk- Texteditor mit Programmiersprache; Shell- Eingabeaufforderung und beinhaltet sed und gawk und kann beides damit aufrufen)

-treetagger (hier nur der Vollständigkeit halber aufgeführt; kann Montenegrinisch nicht erkennen)

Fazit: leider ist dieses Vorgehen für mich eher wenig von Nutzen, weil Montenegrinisch nicht erkannt wird; gvim weist Probleme bei der Erkennung von š und ś auf; deswegen greife ich auf die Korpussoftware von Herrn Andre Poljak zurück, URL: http://fachschaft-slavistik.de/korpus. Offiziell ist kein Korpus und Wörterbuch zum Montenegrinischen verfügbar, weshalb die Erkennung von Wortarten noch nicht zu 100 % gewährleistet ist; die nicht zuzuordnenden Wörter werden dennoch in das Ergebnis mit aufgenommen (evtl. manuelle Zuweisung).

Vielen Dank für Ihre Mühe und Geduld 🙂

Schreibe einen Kommentar Antwort abbrechen