Seitenhistorie

Es macht Sinn der Frage nach den Vorzügen von XML-Schemata die Frage nach dem Mehrwert allgemeiner Datenkodierung Textkodierung voranzustellen. Kodierungen folgen einer Systematik, die dem Text eine abstrakte, strukturierende Ebene verleiht. Sie ermöglichen ein Format verleiht. Auch wenn erprobte Standards bestehen, ist das Wie im Grunde jedem Kodierenden selbst überlassen. Das Format kann Text strukturieren, ihn mit einer Funktion versehen oder besondere Merkmale hervorheben. Es ermöglicht zudem eine Anreicherung des Fließtexts Texts mit zusätzlichen (Meta-)Informationen beliebiger Art, z.B.

Struktur verleiht.

einzelne Bausteine gezielt ansteuern.

++angereichertem Text Struktur verleihen

++Abstrakt, Schemata abfragen, nicht nur Fließtext

Dies gilt nicht weniger für die Kommentaren, Angaben zum Autor des Codes, zum Entstehungszeitraum, etc.. Durch die systematische Struktur kodierter Texte lassen sich einzelne Textbausteine und Metainformationen präzise ansteuern und abrufen. Kodierungsstandards erlauben zudem, dass Texte/ Codes auch maschinell ausgelesen und "verstanden" werden können (z.B. HTML). Dies gilt nicht weniger in den Geisteswissenschaften. Je systematischer die Daten kodiert sind, desto effizienter lassen sich diese durchsuchen und gesuchte Informationen abrufen. Dass der direkte Zugriff auf die kodierten Daten hier dennoch eher die Ausnahme darstellt, liegt nicht zuletzt daran, dass eine Vielzahl von Tools Benutzeroberflächen bzw. Suchmasken bereitstellen, die einfachere Suchanfragen und Operationen ermöglichen. Diese Masken verschleiern die Komplexität der Datengrundlage und funktionieren nur vor dem Hintergrund einer kodierten Textgrundlage, minimieren jedoch im Sinne einer Vermeidung von Komplexität den direkten Kontakt zwischen dem Code und dem Nutzer.

Was Masken (nicht) leisten können

...

Abgesehen davon, dass diese Herangehensweise insbesondere bei allomorphen Strukturen einen Mehraufwand durch immer wieder neu zu startende Suchanfragen mit sich bringt, erschweren auch Homonyme die Suche. So sind die Formen lo und la (bzw. l_) nicht ausschließlich der Kategorie der Artikel zuzuordnen sondern auch der der Pronomen. Alternativ lässt sich auch nach der Wortart – auch in Kombination mit dem Lemma oder mit dem Lemma und dem Token – suchen.

(Sucht nach der Wortart .Ar)

(Sucht nach dem Lemma il, welches der Kategorie .Ar angehört)

(sucht nach dem Token lo, das als Lemma il besitzt und der Kategorie .Ar angehört)

Die beschriebenen Alternativen verraten bereits, dass die zugrundeliegenden Daten nicht als purer Fließtext vorliegen können, sondern in irgendeiner Weise mit Informationen zu Wortart Wortarten und Lemmata angereichert sind. Ein Blick in die XML-kodierten Daten bestätigt diese Annahme.

...

Auch wenn somit für jede Form eine abrufbare Annotation vorliegt, kann die Benutzeroberfläche die Suchmöglichkeiten, die eine solche Annotation bietet, nicht komplett nutzen. Möchte man zum Beispiel die Artikel la und lo, d. h. l_, suchen, so kann dies nur ohne Angabe der Wortart erfolgen. Ein Input der Form .Ar.il.l_ erzeugt eine Fehlermeldung, während sowohl l_ als auch .Ar.il.lo zulässig sind. Wie noch in dem weiteren Verlauf dieses Manuals deutlich werden wird, sind Abfragen annotierter Textmerkmale in unmaskierten Textdaten durchaus möglich.

...

Wikis der Freien Universität Berlin

Seitenhierarchie

Versionen im Vergleich

Alte Version 5

Neue Version 6

Schlüssel

Was Masken (nicht) leisten können