Sitzungsnavigation: keine Veranstaltung ausgewählt. (Veranstaltung wählen.)

Linguistische Theorien im Rahmen der digital humanities




Quelle

1. Ein Rahmen

Im Titel dieses Beitrags ist vom "Rahmen der digital humanities"1 die Rede. Die Ausdrucksweise verdient ernst, d.h. in diesem Fall: wörtlich, genommen zu werden; denn damit ist nicht gemeint, dass Etwas (Linguistische Theorien) vor dem Hintergrund von etwas Anderem (digital humanities) betrachtet wird. Es soll vielmehr eine Konzeption identifiziert werden, in der die digital humanities als solche, an und für sich, als  ein spezifischer Rahmen für Forschung und Wissensvermittlung anzusehen sind.  Diese Auffassung, die grundsätzlich auch vom Center for Digital Humanities der LMU (ITG) getragen wird, fasst die Digital Humanities also nicht als eine selbständige Disziplin  in Ergänzung der bereits etablierten Disziplinen (wogegen im Übrigen schon die pluralische Form des Ausdrucks spricht), sondern als einen Komplex methodologischer Grundeinstellungen und daraus resultierender Optionen, in den die bestehenden Disziplinen früher oder später transferiert werden2; in diesem Sinn mag man auch von einer ‘Bewegung’ sprechen, die allerdings in einer starke disziplinären Kontinuität zur analogen Forschungswelt steht – das darf neben der zu Recht, und oft emphatisch, hervorgehobenen methodologischen Neuheit nicht übersehen werden.

1.1. Ein digitaler Rahmen

Die vollkommen veränderten Rahmenbedingungen resultieren aus der umfassenden Digitalisierung; dafür ist der Einsatz elektronischer Datenverarbeitung notwendig, aber keineswegs hinreichend, denn die digital humanities stützen sich darüber hinaus grundsätzlich auf die - natürlich ebenfalls digitalen - Neuen Medien, genauer gesagt: auf Webtechnologie, und erfassen so zwangsläufig sämtliche Prozeduren und Dimensionen der Wissenschaftskommunikation (vgl. Krefeld 2017c) und stärken in substantieller Weise das immer schon zur Wissenschaft gehörendes Kooperationsprinzip. Auch ambitionierte und durchaus repräsentative Projekte lassen gerade in dieser Hinsicht zu wünschen übrig. Ein lehrreiches Beispiel liefert der World Atlas of Linguistic Structures (WALS; vgl. Dryer/Haspelmath 2013). Diese typologisch außerordentlich weit angelegte Unternehmung bezieht ihre Dokumentation offenbar ausschließlich aus linguistischer Literatur und nicht direkt aus Korpora, bzw. aus dem Sprachgebrauch im Internet.  Das Potential des Internets zur Datenerhebung bzw. zur direkten Datenextraktion wird also ebenso wenig genutzt wie die Option den Nutzern (seien sie Linguisten oder Sprecher) die Möglichkeit zu geben, Daten hinzu zu fügen. Die Dokumentation ist daher – nicht zuletzt im Hinblick auf hervorragend dokumentierte und weit verbreitete Standardsprachen äußerst lückenhaft (von deren Dialekten ganz zu schweigen). So wird in der Dokumentation des Vorhandenseins/Fehlens vorderer gerundeter Vokale das Italienische nicht berücksichtigt (Maddieson 2013b);  berücksichtigt wird dagegen das Fehlen im  (sehr gefährdeten) Rätoromanischen von Scharans (Sutselvisch) nicht jedoch das Vorhandensein im Rätoromanischen des Oberengadins (Puter) usw. Dergleichen leicht ermittelbare und durch Sprecher zuverlässig belegbare Informationen könnten wirklich in effizienter Weise vervollständigt werden. 

Zugespitzt darf man sagen, das erst durch den konsequenten Einsatz von Webtechnologien die wissenschaftliche res  im strengen Sinn publica wird. In ganz unmittelbarer Weise ergeben sich neben den medialen daher auch vielfältige und aktuell stark diskutierte institutionelle Implikationen; sie betreffen insbesondere das komplexe Forschungsdatenmanagement, das mindestens die folgenden Leistungen garantieren muss:

  • inhaltliche Erschließung durch Metadaten,
  • verläßliche Auffindbarkeit (z.B. durch eindeutige DOIs),
  • Textstabilität der Publikation,
  • permanente Zitierbarkeit,
  • Datenaustauschbar und –erweiterbarkeit,
  • dauerhafte Sicherung,
  • wissenschaftliche Nachnutzbarkeit.

Hier besteht großer Regelungsbedarf, der das Zusammenspiel von Forschungsprojekten, Bibliotheken und Repositorien (idealerweise bei großen Rechenzentren) betrifft (vgl. die Vorschläge in Krefeld/Lücke 2017a); jenseits der zeitliche befristeten Projekte und der physischen Aufbewahrung von Daten in Repositorien bleiben die großen Bibliotheken als grundsätzlich auf Dauer eingerichtete Institutionen der Wissensthesaurierung und Wissenserschließung auch in der virtuellen Forschungskommunikation unverzichtbar - entbehrlich geworden sind dagegen die Verlage, deren eigentliche Aufgabe ja in der Verbreitung und Vermarktung gedruckten Wissens und in nichts anderem bestand3. Da nun all diejenigen, die sich schon jetzt auf das skizzierte Format einlassen de facto eine große und wachsende Kommunikationsgemeinschaft bilden, ist die Konventionalisierung elementarer Regeln im gemeinsamen Interesse; das gilt  z.B. für die Nutzung standardisierter Formate und den Verzicht auf die Entwicklung proprietärer Lösungen. Die Teilnahme an der wissenschaftlichen  Kommunikationsgemeinschaft bildet gewissermaßen ein forschungsethisches a priori, wie es von Karl Otto Apel 1973 in vielleicht allzu optimistischer Weise für jede Sprachgemeinschaft (vollkommen unabhängig von wissenschaftlichen Gegenständen) angenommen wurde. Dieses a priori verpflichtet alle Teilnehmer zur kontinuierlichen Verbesserung des Kommunikationsflusses.

Zu den Grundregeln gehört die Beachtung bestimmter Anforderungen hinsichtlich der Datenqualität. Denn das große Potential des medialen (und sehr bald hoffentlich auch institutionellen) Rahmens kann sich nur dann konstruktiv entfalten, wenn die  Forschungsdaten - unabhängig von ihrer inhaltlichen Substanz - in transparenter Weise modelliert, strukturiert und formatiert werden. Dazu sagt Stephan Lücke aus Sicht des Projekts VerbaAlpina:

"Unter Datenmodellierung versteht VerbaAlpina die theoretische Entwicklung der Gliederung von zunächst unstrukturiertem Datenmaterial. Im Wesentlichen geht es dabei um die Definition von sog. Entitäten, also einer Klasse von Einzelobjekten, denen eine bestimmte Art und Anzahl von Attributen (= Eigenschaften) gemeinsam ist. Im Zuge der Datenmodellierung erfolgt auch die Festlegung der Beziehungen zwischen den unterschiedlichen Entitäten. 
Von der Datenmodellierung sind zu unterscheiden die Datenstrukturierung und das Datenformat. Mit Datenstrukturierung ist die konkrete Anwendung des theoretischen Datenmodells auf einen Datenbestand gemeint, als deren Ergebnis eine strukturierte Repräsentation der Daten etwa in Gestalt einer oder mehrerer Tabellen vorliegt. Ein strukturierter Datenbestand kann wiederum in unterschiedlichen Datenformaten abgebildet werden (z.B. in Tabellenform = relationales Datenformat, XML-Format usw.), wobei häufig eine Transformation von einem in ein anderes Format möglich ist." (Lücke 2018)

Für das Fachverständnis ist die Datenmodellierung von grundlegender Bedeutung; denn vor ihr hängt ab, ob und in welchem Ausmass eine disziplinäre Kontinuität zur analogen Forschungswelt aufrechterhalten werden soll. Darauf weist auch Fotis Jannidis nachdrücklich hin:

"Insgesamt kann man kaum überschätzen,wie wichtig Datenmodelle und die Datenmodellierung für die Digital Humanities sind. Es gibt einflussreiche Stimmen, die sie für den Kern der Digital Humanities halten (McCarty 2005), da die Modellierung der Punkt ist, wo das geisteswissenschaftliche Verständnis eines Weltausschnitts | und die Kompetenz zur formalen Modellierung zusammentreffen und im besten Fall neue Fragestellungen und neue Forschungen ermöglchen." (Jannidis 2017, 107f.)

Strukturierung und Formatierung dienen dagegen dem Funktionieren der Forschungskommunikation, deren Optimierung weithin in der Hand der einsichtigen Forscher liegt. Der wichtigste erste Schritt besteht darin, Forschungsdaten in Form eines strukturierten elektronischen Textes verfügbar zu machen (vgl. Lücke 2017). In erster Linie bieten sich relationale Formate in Gestalt von Tabellen an; sie setzen ja bereits Strukturierung voraus, denn jede Zeile/Spalte impliziert rein formal eine strukturierende Kategorie, die allerdings modellkonform spezifiziert werden muss;  im Fall eines basalen binären Codes, z.b. im Graphikformat JPG, ist diese Voraussetzung noch nicht gegeben. Deshalb ist Folgendes festzuhalten:

  • strukturierte Daten lassen sich leicht auswerten und konvertieren;
  • nur strukturierte Daten erlauben fein granulierte Metadaten, so dass es möglich wird, auch eine einzelne Datensätze dauerhaft zu identifizieren (z.B. mittels einer DOI).

Selbstverständlich ist es unbedingt wünschenswert, sowohl bei der Strukturierung der Objekt- und Metadaten als auch bei der Formatierung auf standardisierte oder wenigstens quasi-standardisierte Entitäten und Attribute zurückzugreifen. Grundsätzlich Einige nützliche Angebote, die sind im Folgenden in kleiner Auswahl erwähnt werden, sind bereits verfügbar.

Außerordentlich komplex und erst ansatzweise umgesetzt ist die in der Informationstechnologie als Ontologie bezeichnete, virtuell verlässliche und standardhafte Identifizierung außersprachlicher Wirklichkeit; vor allem zwei fundamentale Fragen sind noch immer unklar, einerseits wird die kategorische Trennung von außersprachlichen Realia und ihren einzelsprachlichen Bezeichnungen nicht konsequent durchgeführt und andererseits wird die enorme Sprachvielfalt nicht systematisch abgebildet. Illustrativ, man möchte sagen emblematisch für die Art und Weise, wie die ganze Problematik in der aktuellen medialen Übergangsphase behandelt wird, ist die Gemeinsame Normdatei der Deutschen Nationalbibliothek (GND);4 sie diente in der Welt der gedruckten Publikationen ausschließlich der Verschlagwortung von (wissenschaftlicher und nicht wissenschaftlicher) Literatur und gewinnt nun, darüber hinaus, auch in der Welt der virtuellen Publikation im Internet an Bedeutung als allgemeines, enzyklopädisches Referenzsystem:  

"Die Gemeinsame Normdatei (GND) ist eine Normdatei für Personen, Körperschaften, Konferenzen, Geografika, Sachschlagwörter und Werktitel, die vor allem zur Katalogisierung von Literatur in Bibliotheken dient, zunehmend aber auch von Archiven, Museen, Projekten und in Webanwendungen genutzt wird. Sie wird von der Deutschen Nationalbibliothek, allen deutschsprachigen Bibliotheksverbünden mit den angeschlossenen Bibliotheken, der Zeitschriftendatenbank (ZDB) und zahlreichen weiteren Einrichtungen gemeinschaftlich geführt. Die Mitarbeit in der GND erfolgt entweder über Verbünde oder nach direkter Absprache mit der Deutschen Nationalbibliothek." (Quelle)

Hier werden zahlreiche spezifische Konzepte erfasst, wie die Recherche auf OGND zeigt. So wird mit dem GND-Eintrag 4039264-8 explizit ein Normdatum für den "Sachbegriff" MILCH5 etabliert, das mit zahlreichen, nämlich 386 verschiedenen Publikationen (Stand: 14.8.2018) verknüpft ist. Gleichzeitig wird das Konzept (der „Sachbegriff“) MILCH in ein ganzes Netz anderer Kategorien eingebunden, die als "Synonyme", "Oberbegriffe", "Systematik", "andere Normdaten" und "untergeordnet" bezeichnet werden und mindestens einen, teils aber auch zahlreiche andere "Sachbegriffe" beinhalten.

Kategoriales Bezugssystem für den "Sachbegriff" MILCH in der GND
"Synonyme" "Konsummilch", "Kuhmilch", "Trinkmilch (Quasisynonym)"
"Oberbegriffe" "Körperflüssigkeit"
"Thematischer Bezug" "Milchwissenschaft"
"Systematik" "32.7 Milchwirtschaft"; "31.11 Lebensmitteltechnologie"
"andere Normdaten" LCSH: Milk, RAMEAU: Lait, LCSH: Cooking (Milk), RAMEAU: Cuisine (produits laitiers)
"untergeordnet" "Buttermilch", "entrahmte Milch", "Eselsmilch", "Fettkügelchen', "H-Milch", "Kamelmilch", "Kondensmilch", "Magermilch", "Muttermilch", "Residualmilch", "Rohmilch", "Säuglingsmilch", "Sammelmilch", "Schafmilch", "Schulmilch", "Stutenmilch", "Teilentrahmte Milch", "Trockenmilch", "Vollmilch", "Ziegenmilch" 

Es wird also durch die Kategorien "Thematischer Bezug" und "Systematik" ein sachlicher Horizont  (linguistisch gesprochen: ein Frame) abgesteckt, und weiterhin wird eine hierarchische Organisation auf drei hierarchischen Ebenen zu Grunde gelegt, so dass dem jeweiligen "Sachbegriff" jeweils eine Ebene über- und eine untergeordnet wird:  

"Oberbegriffe" "Körperflüssigkeit"
"Sachbegriff" "Milch"
"untergeordnet" "Buttermilch", "Entrahmte Milch", "Eselsmilch", "Fettkügelchen", "H-Milch", "Kamelmilch", "Kondensmilch", "Magermilch", "Muttermilch", "Residualmilch", "Rohmilch", "Säuglingsmilch", "Sammelmilch", "Schafmilch", "Schulmilch", "Stutenmilch", "Teilentrahmte Milch", "Trockenmilch", "Vollmilch", "Ziegenmilch"    

Unübersehbar ist jedoch, dass die logisch scharf zu trennenden außersprachlichen Realia ("Sachbegriffe") und ihre einzelsprachlichen Bezeichnungen in der Modellierung des Datensatzes in schwer entwirrbarer Weise ganz grundsätzlich vermischt werden: Synonyme gibt es ausschließlich im Bereich der Bezeichnungen; in der Welt der Realia ist die Kategorie vollkommen sinnlos, denn so etwas wie den Planeten, auf dem wir leben, oder die Spezies der Lebewesen zu der wir gehören, die jeweilige Stadt, in der wir uns gerade aufhalten usw., gibt es doch nur einmal - vollkommen unabhängig davon, ob wir z.B . unsere Spezies etwa im Fra. als hommes oder aber mit einem synonymen Ausdruck als  êtres humains bezeichnen usw.; synonymische Relationen gibt es nur zwischen sprachlichen Zeichen. Andere Relationen bestehen dagegen auch und zunächst zwischen außersprachlichen Realia und werden sekundär an deren Bezeichnungen ‘vererbt’, so z.B. taxonomische Relationen wie etwa die Inklusion von Mengen, denn Instanzen einer Teilmenge sind immer auch Instanzen der jeweiligen Obermenge: Alle Frauen sind Menschen und alle Menschen sind Lebewesen; die jeweiligen Bezeichnungen sind dann übergeordnete und abstraktere Hyperonyme oder untergeordnete und spezifischere Hyponyme. In diesem Sinne ist MILCH in der Tat eine KÖRPERFLÜSSIGKEIT (wie die GND angibt). 

In der Kategorie „untergeordnet“ der GND werden jedoch vollkommen unterschiedliche Relationen zusammengebracht:

  • "Eselsmilch", "Kamelmilch",  "Muttermilch", "Residualmilch", "Rohmilch", "Schafmilch",  "Stutenmilch", "Ziegenmilch" bezeichnen echte Teilmengen von MILCH und konsequenterweise auch von KÖPERFLÜSSIGKEITEN; sie unterscheiden sich nur durch die produzierende Spezies und die Gewinnung;  
  • "Schulmilch" bezeichnet dagegen eine institutionalisierte Verwendung einer Teilmenge von MILCH. 
  • "Vollmilch", "Buttermilch",  "entrahmte Milch, "Kondensmilch", "Magermilch", "H-Milch", "Teilentrahmte Milch", "Säuglingsmilch", "Trockenmilch" sind  bezeichnen keine echten Teilmengen, denn es handelt sich nicht einfach um "Milch" im Sinne einer "Körperflüssigkeit", sondern um manipulierte Arten oder gar um Produkte, die aus MILCH gewonnen werden;
  • zwischen "Fettkügelchen" und MILCH besteht eine Teil-Ganzes-Relation.

Die sprachliche Vielfalt deutet sich lediglich im minimalistischen Hinweis auf "andere Normdateien", genauer: auf englische und französische an6. Sehr wichtig und unbedingt notwendig ist die von der DNB angestrebte Überführung der GND-Daten in Linked Data und damit die Referenz auf eindeutig sprachunabhängige KONZEPTE. Wie dieser Transfer jedoch konkret bewerkstellingt werden wird, ist nicht sehr transparent und vor dem Hintergrund der skizzierten Inkonsistenzen erscheint eine automatisierte Umsetzung in die erforderlichen prädikatenlogischen Tripel aus Klassen, Instanzen und Relationen noch problematisch; mindestens ein Set von semantisch eindeutig spezifizierten Relationen müsste doch wohl vorgegeben sein.

Sehr konsequent hat sich dagegen die 'naturwüchsige' Wikipedia von der einzelsprachlichen Beschränkung und Beschränktheit der bibliothekarischen 'Sachschlagwörter'  befreit hat, denn die diversen einzelsprachlichen Artikel der Wikipedia zur Sache MILCH (187 an der Zahl, mit Stand vom 14.8.2018) haben sämtlich eine Identifikationsnummer gemeinsam, die eben dieses außersprachliche Prokukt sprachunabhängig identifiziert; diese ID (vgl.  milk) ist in der linken Randspalte der Wikipedia-Artikel unter dem Button Wikidata item (bzw. auf deu. Wikidata-Datenobjekt)  abrufbar.

Diese Wikidata Q-IDs werden offensichtlich nicht systematisch angelegt, sondern sie entstehen vollkommen unvorhersehbar nach Maßgabe der Nutzerinteressen, d.h. praktisch oft mit der Abfassung eines Wikipediaeintrags; taxonomische oder andere logische Relationen (Teil-Ganzes usw.) zwischen den Sachbegriffen werden daher in den IDs selbst nicht abgebildet, wie der folgende kleine Ausschnitt zum Thema MILCH als Oberbegriff und einigen speziellen Ausprägungen (Unterbegriffe) zeigt:

Ontologie (= Außersprachliche Realität) Wikidata-ID einzelsprachliche Bezeichnungen gemäß spezifischer Wikipedia-Artikel
MILCH Q8495 186
KUHMILCH Q10988133 12
MUTTERMILCH Q22728 53 
KOLOSTRUM Q192746 52
SCHAFMILCH Q2736146 15
ZIEGENMILCH Q1418287 11
(...)    

Selbstverständlich muss die Identifikation der Realia im Detail sehr viel feiner granuliert werden; sprachwissenschaftliche Projekte z.B. aus der Lexikologie, Lexikographie oder kognitiven Linguistik sollten daher - im Sinn der 'digital-humanitären' Kooperation - die Wikidata-Plattform mit entsprechende neuen Q-IDs anreichern oder -besser noch - linked data mit relationierten Tripeln versorgen.

Übrigens bestehen entprechende Q-IDs auch für elementare Kategorien und Funktionen sprachlicher Systeme, etwa für die traditionellen Wortarten (vgl. exemplarisch Präposition) oder auch für  theorieinduzierte Kategorien (vgl. exemplarisch specifier):

Präposition Q4833830
specifier Q2309573

Faszinierend ist vor diesem Hintergrund die eigentlich sehr naheliegende, aber noch nicht in umfassender Weise angenommene Herausforderung, den ontologischen Q-IDs nicht nur einzelsprachliche Bezeichnungen, d.h. die grammatischen Formen und lexikalischen Typen (en. types) zuzuordnen, sondern diese Bezeichnugen ebenfalls durch lexikalische Norm-IDs zu identifizieren. Damit wurde in der Wikidata, wenngleich in reichlich unübersichtlicher Weise,  bereits begonnen 7, und im Sinne der digital humanities sind alle neu entstehenden oder durch Retrodigitalisierung generierten Online-Wörterbücher und alle enzyklopädischen Texte, aufgerufen, dieses System zu nutzen, auszubauen und dadurch ein umfassendes und sprachübergreifendes, ontologisch-lexikalisch–grammatisches Netz zu knüpfen.

1.2. Ein Rahmen für die humanities

Mit den humanities wird eine Gruppe akademischer Disziplinen adressiert, die sich in der traditionellen Organisation der europäischen, oder wenigstens: kontinental europäischen Forschungs- und Lehrfächer nicht abbildet; dazu werden im angloamerikanischen Raum die Disziplinen gerechnet, die sich mit Aspekten der menschlichen Kultur(en) und und ihrer Geschichte befassen; im Kern sind damit die Geisteswissenschaften und Gesellschaftswissenschaften sowie die (Sozial)Geographie und im Grunde auch die Jurisprudenz gemeint. Eine trennscharfe, positive Bestimmung der zugehörigen Fächer ist jedoch schwierig und wahrscheinlich auch gar nicht sinnvoll; wichtiger ist aus sprachwissenschaftlicher Sicht vielmehr der  Umstand, dass die engere, in Europa und hier vor allem in der deutschsprachigen Tradition verwurzelte Kategorie der philology/Philologie bzw. der daraus hervorgegangenen, noch spezifischeren Gruppe der linguistics/Linguistik vermieden wird. Es muss aber gleich hinzu gesetzt werden, dass der weitere Horizont der humanities keinesfalls den Verzicht auf Bereitstellung genuin disziplinärer Daten impliziert; die Disziplinen sind, ganz im Gegenteil, in der Pflicht spezifische Korpora zu schaffen, bestehende Korpora zu erweitern und in ihrer Nutzbarkeit zu verbessern.8  Entscheidend ist vielmehr, dass der über Philologie und Linguistik hinausreichende Gesichtskreis dazu einladen will sprachliche Daten in sinnvoller Weise mit nicht sprachlichen Daten abzugleichen und sie womöglich gemeinsam zu kumulieren. Die disziplinär getrennten Forschungsdaten und ihre jeweilige Struktur müssen deshalb gemeinsame Kategorien aufweisen. Sehr elementare und keineswegs triviale Gemeinsamkeiten sind Geo- und/oder Chronoreferenzierungen; sie sind von großer Bedeutung für die Variationslinguistik und für die Sprachgeschichtsschreibung.

Ein illustratives Beispiel liefert der diachrone Sprachkontakt, denn die Rückführung dialektaler (und später womöglich standardsprachlicher) Formen auf Substrat- oder Superstrateinflüsse ist oft hypothetisch. Archäologische Evidenz kann hier oft gute, unterstützende Argumente liefern. So zeigt z.B. diese Karte einige österreichische Dialektbelege von Keller < lat. cellarium und von Kaser < lat. casearea, beide in der Bedeutung 'Almhütte',  gerade dort, wo auch römische Inschriften und antike Ortsnamen überliefert sind. Dadurch wird die Annahme einer direkten Entlehnung aus dem lateinisch-romanischen Substrat plausibel.

2. Linguistische Theorien

Aus den ersten beiden Kapiteln ist klar geworden, dass die Sprachwissenschaft durch den Transferin in die digital humanities nicht nur in den Rahmen einer substantiell veränderten Forschungskommunikation gesetzt wird, sondern dass dieser Rahmen gewissermaßen starke Ventile  bereithält9, die einerseits leicht zu öffnen sind, um die Forschungsfelder mit einer fruchtbaren Masse von sprachlichen Daten zu versorgen, die aber andererseits drohen dem Druck der Daten nicht standzuhalten und die Forschungsfelder durch Daten zu überfluten. In jedem Fall sind für viele Sprachen und Varietäten zunehmend Daten vorhanden; im Falle etlicher Standard- oder wenigsten standardnaher Varietäten sind wirkliche Massendaten verfügbar, sei es in Gestalt retrodigitalisierter Printquellen, digitaler Audiodaten oder aber in Form von Daten, die aus der sich täglich kräftig vermehrenden Schriftlichkeit extrahiert werden, die das Internet hervorbringt und die mehr oder weniger selektiv mit Hilfe von Webcrawlern, Web- oder Screenscrapern 'geerntet' werden können (web harwesting).10 Es hat sich somit eine Situation ergeben, in der die Vertreter spezifischer und in sich konsistenter linguistischer Theorien in einem Umfeld operieren, das sie zwar nicht selbst, sozusagen nach dem eigenen Abbild, geschaffen haben, das sie aber dennoch mehr oder weniger intensiv (sollten).  Zwar ist nicht damit zu rechnen, dass der parallele Zugriff auf identische Daten zur Konvergenz konkurrierender Theorien oder gar zu deren Preisgabe führt, aber in jedem Fall sind alle Nutzer genötigt, sich zum genutzten Rahmen im Allgemeinen und im Besonderen zu den darin bereitgehaltenen Korpora (d.h. letztlich: zur Empirie) methodologisch zu verhalten. Selbstverständlich kann die Lösung gerade nicht darin bestehen die Datenquellen/Korpora nach sehr spezifischen Entitäten und Attributen der jeweiligen Theorie zu strukturieren, denn dadurch würde anderen Ansätze die parallele Nutzung erschwert; vielmehr sollten die die strukturierenden Kategorien möglichst theorieübergreifend sein, was z.B. durch die robusten  Tagsets der verbreiteten Verfahren des part-of-speach tagging (vgl. die für den von Helmut Schmid entwickelten TreeTagger definierten einzelsprachlichen Parameterfiles). gewährleistet ist.  Für theoriespezifische Annotationen müssen geeignete Schnittstellen für multiplen Up- und Download eingerichtet sein, so dass unterschiedliche Modelle auch trotz theoretischer Isolierung ‘versorgt’ werden können. Schematisch lässt sich sich die wünschenswerte Verknüpfung von Theorien und Datenquellen folgendermaßen darstellen:

Datenquellen mit multiplen Schnittstellen

Unvermeidlich ist in der skizzierten Situation eine deutliche Relativierung theoretischer Geltungsansprüche. Das gilt insbesondere für oberflächenferne syntaktische Analysen, die Sätze mit leeren funktionalen Kategorien beschreiben und hypothetische ‘Bewegungen’ lexikalischer Kategorien von primären auf andere funktionale Positionen annehmen. So wird in einer bestimmten Version der generativen Syntax ein einfacher spanischer Hauptsatz mit der Satzgliedfolge SVO, wie  z.B. 
el estudiante aprobarà el examen 'der Student wird das Examen bestehen'

nicht als Verbindung einer Nominalphrase (NP) in Subjektsfunktion und einer Verbalphrase (VP) analysiert, wie:

[SATZ [NP] el estudiante][VP aprobarà el examen]],

sondern es wird eine der VP übergeordnete 'inflection phrase' angenommen mit einem abstrakten funktionalen Kopf I, der Tempus (Tns) und Subjektkongruenz (Agr) zuweist. Diesem Kopf entspricht an der Oberfläche keine sprachliche Form; er wird jedoch angenommen, um Fälle analog beschreiben zu können, in denen Tempus und Subjektkongruenz in einem Auxiliar erscheinen, wie z.B.
el estudiante ha aprobado el examen ‘der Student hat das Examen bestanden’
und die Verbalphrase im engeren Sinn nur die infinite Verbform enthält.11

Strukturbaum aus Gabriel u.a. 2018, 42, Beispiel 12 b. (rechts) und eigener Baum zum Beispiel 12 a. (links)

 
Die Theorie zwingt dazu, oberflächlich identischen Sätzen aus unterschiedlichen Sprachen u.U. vollkommen verschiedene Strukturbäume zu hinterlegen. So hat das genannte spanische Beispiel eine direkte deutsche Entsprechung:
[SATZ [NP] [VP ]]
SUBJEKT VERB DIREKTES OBJEKT
el estudiante aproberà el examen
der Student besteht das Examen
Allerdings ist der deutsche Satz syntaktisch anders zu beurteilen, denn im Deu. ist es möglich, Komplementsätze (‘Complementizer Phrase’, CP) ohne Konjunktion (‘Complementizer’, C) anzuschließen:
  
mit Komplementierer: ich glaube,  dass dieser Student das Examen besteht
    [CP [[C][S][O][V]]] mit finalem V
ohne Komplementierer: ich glaube,  dieser Student besteht das Examen
    [CP [[S][V][O]] mit V2

Die Konstruktion der Variante ohne Komplementierer ist nur mit dem  Verb an zweiter Stelle (V2)  möglich und entspricht deshalb genau der Syntax des einfachen deu. Deklarativsatzes. Hauptsatz.  Gabriel u.a. 2018b ziehen daraus den Schluss:

"dass im Deutschen nicht nur Nebensätze, sondern auch Hauptsätze grundsätzlich als CP zu analysieren sind und dass sich das konjugierte Verb immer dann über I hinweg nach C bewegt, wenn diese Position [sc. des Komplementierers] leer ist" (44).
Es ergeben sich also für Sätze wie
das Examen besteht dieser Student zweifellos (OVS),
dieser Student besteht das Examen zweifellos (SVO)
die folgenden Strukturbäume: 
Strukturbaum eines deutschen Hauptsatzes mit initialem Objekt (aus Gabriel u.a. 2018, 45)

Strukturbaum eines deutschen Hauptsatzes mit initialem Subjekt (gemäß Beispiel 15 b. in Gabriel 2018, 44)

Wenn man diese Analyse in der Annotation eines Korpus abbilden wollte, müsste z.B. das Verb (hier: besteht), erstens, als Kopf von drei verschiedenen Phrasen bzw. Projektionsebenen getaggt werden (VP, I', C') und, zweitens, müsste die Art des Taggings die Dynamik der Löschungen (graphisch: Durchstreichung) und Bewegungen (graphisch: Pfeil) abbilden. Gerade die theoretisch fundamentale Annahme kaskadierender hierarchischer Ebenen12 führt zu einer erheblichen und störenden Komplikation der Kodierung und kann nur sekundär und zusätzlich, nämlich für etwaige Anwendungen der spezifisch generativistischen Nutzergemeinschaft erfolgen. Flache Modellierung syntaktischer Konstruktionen, mit direkter Zuweisung aller Funktionen  an Einheiten, die an der Oberflächlich konkret identifiziert werden können, sind für die Annotation zweifellos besser geeignet; sie wird etwa durch die Head-driven Phrase Structure Grammar (HPSG) erfolgreich praktiziert.
Vom Komplex der Datenmodellierung und -strukturierung abgesehen, könnte gerade die generative Syntax jedoch in anderer Hinsicht sehr gut vom Aufbau virtueller Forschungsumgebungen im Rahmen der  digital humanities  profitieren, denn das Internet liefert hervorragende Bedingungen zur Verbreitung von Tests zur Ermittlung von Grammatikalitäts- und Akzeptabilitätsskalen (vgl. Gabriel u.a. 2018b, 191).

Bibliographie

  • Apel 1973 = Apel, Karl Otto (1973): Das Apriori der Kommunikationsgesellschaft, in: Transformation der Philosophie, vol. 2, Frankfurt am Main, Suhrkamp.
  • Dryer 2013 = Dryer, Matthew S. (2013): Expression of Pronominal Subjects, in: Dryer, Matthew S. / Haspelmath, Martin (Hrsgg.), The World Atlas of Language Structures Online, Leipzig, Max Planck Institute for Evolutionary Anthropology (Link).
  • Dryer/Haspelmath 2013 = Dryer, Matthew / Haspelmath, Martin (Hrsgg.) (2013): The World Atlas of Language Structures Online, Leipzig, Max Planck Institute for Evolutionary Anthropology [Accessed on 2018-04-20] (Link).
  • Gabriel u.a. 2018b = Gabriel, Christoph / Müller, Natascha / Fischer, Susann (2018): Grundlagen der generativen Syntax - Französisch, Italienisch, Spanisch, Berlin/Boston, de Gruyter.
  • Jannidis 2017 = Jannidis, Fotis (2017): Grundlagen der Datenmodellierung, in: Jannidis u.a., 99-108.
  • Jannidis u.a. 2017 = Jannidis, Fotis / Kohle, Hubertus / Rehbein, Malte (2017): Digital Humanities. Eine Einführung, Stuttgart (Link).
  • Krefeld 2017c = Krefeld, Thomas (2017c): Wissenschaftskommunikation im Web, in: 17/1, VerbaAlpina-de (Hrsg.), Methodologie (Link).
  • Krefeld 2018f = Krefeld, Thomas (2018): VerbaAlpina – oder: der Transfer der Geolinguistik in die digital humanities, in: VerbaAlpina 18/1, Online (Link).
  • Krefeld/Lücke 2017a = Krefeld, Thomas / Lücke, Stephan (2017a): Nachhaltigkeit – aus der Sicht virtueller Forschungsumgebungen, in: Korpus im Text (Link).
  • Lücke 2017 = Lücke, Stephan (2017): Digitalisierung, in: 17/1, VerbaAlpina-de (Hrsg.), Methodologie (Link).
  • Lücke 2018 = Lücke, Stephan (2018): Datenmodellierung, in: VerbaAlpina | Methodologie, Online (Link).
  • Maddieson 2013b = Maddieson, Ian (2013): Front Rounded Vowels, in: Dryer, Matthew S. / Haspelmath, Martin (Hrsgg.), The World Atlas of Language Structures Online, Leipzig, Max Planck Institute for Evolutionary Anthropology (Link).
  • Rizzi 2016 = Rizzi, Luigi (2016): Linguistic knowledge and unconscious computations, in: Rivista internazionale di filosofia e psicologia (Link).
  • Rizzi forthcoming = Rizzi, Luigi (forthcoming): The left periphery: Cartography, Freezing, Labeling, in: In Proceedings of the International Workshop on Syntactic Cartography, Beijing, Beijing Language and Culture University (Link).
  • Rubino 2013 = Rubino, Carl (2013): Reduplication, in: Dryer, Matthew S. / Haspelmath, Martin (Hrsgg.), The World Atlas of Language Structures Online, Leipzig, Max Planck Institute for Evolutionary Anthropology (Link).
Vgl. zu den digital humanities allgemein die Beiträge in Jannidis u.a. 2017.
Vgl. zu diesem Transfer Krefeld 2018f am Beispiel einer 'klassischen' Subdisziplin der Sprachwissenschaft, nämlich der Geolinguistik.
Parallele Entwicklungen in der Musik sind unübersehbar; exemplarisch ist das Beispiel der bekannten Geigerin Julia Fischer, die neue Aufnahmen nurmehr über eine eigene Plattform verbreitet und auf Labels  verzichtet.
Wichtige Hinweise zu diesem Komplex verdanke ich Sonja Kümmet von der UB der LMU.
Ein enzyklopädische Definition dieser spezifischen KÖPERFLÜSSIGKEIT fehlt übrigens; sie könnte etwa KÖPERFLÜSSIGKEIT DER SÄUGETIERE ZUR ERNÄHRUNG DER NEUGEBORENEN NACHKOMMEN lauten; im vorliegenden Beitrag werden alle außersprachlichen Realia/Konzepte in Großbuchstaben, einzelsprachliche Bezeichnungen kursiv und deren Bedeutungen in einfachen Anführungszeichen notiert.
Dagegen fehlt der Verweis auf denselben, italienisch bezeichneten Sachbegriff im Nuovo Soggettario Thesaurus der Biblioteca nazionale Firenze (s.v. latte), der sich also ebenfalls  als einzelsprachlich limitiert erweist und im Übrigen einer vollkommen anderen, im Hinblick auf den Frame weiter ausholenden sachlichen und sprachlichen Verknüpfungslogik folgt; insbesondere wird dort ein weitaus kompletteren Frame eröffnet; für manche andere Nationalliteraturen und -sprachen wird es Vergleichbares geben.
Der 7000ste Eintrag erfolgte am 18. Juli 2018 und galt en. to threaten, das konsequenterweise die Lexem-ID L7000 für die infinitivische Nennform erhielt und spezifizierte IDs (L7000-F1, L7000-F2 usw.) für andere morphologische Formen.
Man beachte, dass Korpora nicht per se, sondern nur dann im Sinne der digital humanities sind, wenn ihre Erweiterbarkeit und detailliertere Erschließung durch forschende Nutzer möglich ist.
... wie bereits das Titelbild andeutet.
Ein von Markus Frank im DHVLab der LMU implementierter Scraper hat in kurzer Zeit nur aus den Online-Ausgaben zweier Tages- und einer Wochenzeitung ein tokenisiertes und POS-annotiertes Korpus von ca. 12 Millionen Tokens erstellt (The Guardian - 5.296.935 Worttokens zwischen dem 1.8. und 14.8.2018; Süddeutsche - 2.619.128 Worttokens zwischen dem 8.7. und dem 14.8.2018; Spiegel Online 3.919520 Worttokens zwischen dem 27.6. und dem 14.8.2018).
Je nach Version werden de funktionalen Kategorien Tns und Agr auch als eigene Phrasen dargestellt; weitere Phrasen und 'Schalen' können angenommen werden, um Komplementsätze (C), Kausativität (v), illokutionäre Kraft (Force), Topikalität (Top) und Fokalität (Foc) darzustellen (vgl. Gabriel u.a. 2018b, 52-70, 96 ff.).
Vgl. zur Hierarchie Rizzi 2016: " Structural relations such as c-command, expressed on hierarchical sentential representations, determine all sorts of formal and interpretive properties of sentences: agreement and other morphosyntactic properties, the binding of anaphors and other aspects of referential dependencies, etc".

Schreibe einen Kommentar