Wofür eigentlich XML?

kk

Was Masken leisten können

Masken bieten durchaus Vorteile. Sie fungieren als Übersetzer zwischen der Datengrundlage und dem Nutzer, indem sie einerseits den Input in eine komplexere Abfragesyntax umwandeln, andererseits mitgetragene Daten zugunsten einer nutzerfreundlicheren Lesbarkeit ausblenden. Dies ermöglicht einen intuitiveren Umgang mit In- und Output.

Literaturrechercheportale funktionieren beispielsweise auch hinreichend, ohne dass wir über ein Verständnis der Datenkodierung verfügen. Die Suchmaske genügt uns, um die gewünschten Inhalte zu finden. Das Kennen um das Kodierungsverfahren birgt somit keinen nennenswerten Vorteil.

Auch Korpora lassen sich meist anhand von Suchmasken durchsuchen. Für einfache Abfragen sind die vorprogrammierten Benutzeroberflächen völlig ausreichend. Mit steigender Komplexität der geplanten Anfragen wird man sich jedoch schnell der Begrenztheit der Möglichkeiten bewusst. Ein einfaches Beispiel soll dies veranschaulichen:

Nehmen wir an, wir möchten die Suchmaske des LIP-Korpus nutzen, um Artikelwörter zu finden.

(Suchmaske des LIP-Korpus)

Die Oberfläche bietet uns hierfür mehrere mehr oder weniger geeignete Optionen. Zunächst lassen sich Artikelwörter über ihre Form definieren. Entweder wird hierzu jeder Artikel einzeln gesucht oder es werden Wildcards verwendet, mit deren Hilfe sich ähnlich aussehende Artikel zusammenfassen lassen:

Abgesehen davon, dass diese Herangehensweise insbesondere bei allomorphen Strukturen einen Mehraufwand durch immer wieder neu zu startende Suchanfragen mit sich bringt, erschweren auch Homonyme die Suche. So sind die Formen lo und la (bzw. l_) nicht ausschließlich der Kategorie der Artikel zuzuordnen sondern auch der der Pronomen. Alternativ lässt sich auch nach der Wortart – auch in Kombination mit dem Lemma oder mit dem Lemma und dem Token – suchen.

Die beschriebenen Alternativen verraten bereits, dass die zugrundeliegenden Daten nicht als purer Fließtext vorliegen können, sondern in irgendeiner Weise mit Informationen zu Wortart und Lemmata angereichert sind. Ein Blick in die XML-kodierten Daten bestätigt diese Annahme.

Auch wenn somit für jede Form eine abrufbare Annotation vorliegt, kann die Benutzeroberfläche die Suchmöglichkeiten, die eine solche Annotation bietet nicht komplett nutzen. Möchte man zum Beispiel die Artikel la und lo, d. h. l_, suchen, so kann dies nur ohne Angabe der Wortart erfolgen. Ein Input der Form .Ar.il.l_ erzeugt eine Fehlermeldung, während sowohl l_ als auch .Ar.il.lo zulässig sind. Wie noch in dem weiteren Verlauf dieses Manuals deutlich werden wird, sind Abfragen annotierter Textmerkmale in unmaskierten Textdaten durchaus möglich.

Warum ist es also sinnvoll, sich mit Textdatenkodierung auszukennen? Zunächst schadet es nicht, sich damit auseinanderzusetzen, welche Möglichkeiten der Analyse bestimmter sprachlichen Daten überhaupt gegeben sind. Was wird eigentlich annotiert? Sind die Annotationen überhaupt linguistischer/ lexikalischer/ syntaktischer (etc.) Natur? Welche Annotationen nützen der jeweiligen Analyse?

Hat man sich mit der Datenstruktur auseinandergesetzt, so lassen sich Suchanfragen fernab der für die Suchmasken geltenden Grenzen formulieren. Um bei dem vorausgehenden Beispiel zu bleiben, ließe sich auf diese Weise nach Formen suchen, die aus zwei Buchstaben bestehen, deren zweiter Buchstabe einem o entspricht, deren Wortart mit einem A beginnt und deren Lemma nicht von Bedeutung ist (sozusagen .A_.%._o).

Darüber hinaus können Annotationen auch ergänzt oder modifiziert werden. Zum Beispiel lässt sich die Wortartangabe Ar in Kombination mit dem Lemma il mithilfe von regulären Ausdrücken in den gesamten Daten zu bestAr ändern (sozusagen .Ar.il.% > .bestAr.il.%).

Kodierte Textdaten folgen einer definierten Systematik, was sie auch für Maschinen lesbar macht. Ist das Datenschema, dessen sich ein Tool bedient, bekannt, lassen sich dem auch andere Textdaten anpassen. Auf diese Weise lässt sich zudem der Output eines Tools so abändern, dass er als Input eines anderen Tools verwendet werden kann.

Welchen Vorteil hat XML?

Die XML-Kodierung (eXtensible Markup Language) zeichnet sich insbesondere durch eine standardisierte und regelgeleitete Syntax aus. Es handelt sich um keine toolspezifische Auszeichnungssprache, sodass sie von jedem System gelesen werden kann. Eine große Verbreitung des XML-Standards fördert zudem den wissenschaftlichen Austausch von Daten und Analysewerkzeugen.

Und dieses Manual?

Das hier startende Manual dient der Einführung in die Datenkodierung mittels XML. Zunächst werden Grundlagenkenntnisse geschaffen, die dabei helfen sollen, XML-Strukturen zu erkennen und zu verstehen. Der sich anschließende 2. Block befasst sich mit der Praxis der XML-Kodierung. Hier werden nicht nur unterschiedliche Typen der Textkodierung beleuchtet, sondern auch der TEI-Standard vertieft. Block 3 widmet sich dem Nutzen von XML für sprachwissenschaftsrelevante Anwendungen. Im Zusammenhang mit ausgewählten Tools rückt hier auch die Möglichkeit der Datenmodifikation in den Vordergrund. Zuletzt befasst sich ein abschließender Block mit der Auswertung von XML-kodiertem Text mithilfe von regulären Ausdrücken und xPath.

Allen Blöcken werden Übungsaufgaben mit Lösungsvorschlägen beigefügt, ....

Standards der Textkodierung kennen lesen und anwenden können

Seitenhierarchie

Wofür eigentlich XML?

Was Masken leisten können

Welchen Vorteil hat XML?

Und dieses Manual?