...
Ein XML-Editor kann in der Regel jedoch mehr, als nur XML-Strukturen hervorzuheben. Er kann das Dokument auch auf Wohlgeformtheit prüfen. Überschneiden sich Elemente zum Beispiel oder fehlt das Endtag eines Anfangstags, so sollte das von dem XML-Editor erkannt werden. Mächtigere Editoren können noch mehr. So ist der Editor Oxygen TEI-kompatibel und erlaubt eine Übersetzung vom XML zu einer WYSIWYG ("What you see is what you get")-Version, die die kodierten Formatangaben berücksichtigt. ####Prozedural erklären
Nicht nur wohlgeformt, sondern auch valide
Deskriptiv vs. prozedural
Speziell bei der Arbeit man mit Textdaten unterscheidet man zwischen deskriptiven und prozeduralen Markups. Prozedurale Tags sind als Hinweise zur Darstellung und Formatierung des Textes zu verstehen und werden von einigen Editoren als solche erkannt und angewendet. Von deskriptiven Auszeichnungen ist dagegen die Rede, wenn die entsprechenden Tags Textbausteine mit formatunabhäniger Information auszeichnen. Allerdings können auch deskriptive Tags indirekt auf ein Format beziehen. Wird ein Baustein z.B. als "Überschrift" markiert, so führt dies auch Informationen über ein abweichendes Format mit sich. Allerdingst weist das deskriptive Tag nicht an, den ausgezeichneten Text in ein Überschriftenformat zu bringen.
Ein Beispiel zur Unterscheidung:
Der Rohtext "zucchero ist eine Entlehnung aus dem Arabischen سكر" lässt sich je nach Sinn und Zweck der Annotation mit unterschiedlichen deskriptiven Auszeichnungen versehen. Zum Beispiel kann die Sprache annotiert werden:
<italienisch> zucchero </italienisch> ist eine Entlehnung aus dem Arabischen <arabisch>سكر </arabisch>.
Der gesamte Satz lässt sich um ein <satz>-Tag erweitern (u.s.w.):
<satz><italienisch> zucchero </italienisch> ist eine Entlehnung aus dem Arabischen <arabisch>سكر </arabisch></satz>.
Mit diesen Tags werden Textbausteine lediglich beschrieben, sie sind deshalb deskriptiver Natur. Prozedurale Markups führen hingegen zu einer Veränderung in der Darstellung des Textes, z.B. in:
<kursiv> zucchero </kursiv> ist eine Entlehnung aus dem Arabischen <kursiv>سكر </kursiv>. (mit dem Ergebnis: zucchero ist eine Entlehnung aus dem Arabischen سكر.)
Nun ist XML an sich eine deskriptive Auszeichnungssprache. Dies bedeutet, dass auch Tags wie <kursiv> zu keiner Formatierung des Textes führt und für einen einfachen Editor genauso nichtssagend sind wie <italienisch> und <satz>. Allerdings sind einige fähigere (und folglich auch weniger kostengünstige) Editoren, wie oben angedeutet, mit den Standards der TEI (Text Encoding Initiative) kompatibel. Sind Texte im TEI-Format annotiert, können diese Editoren vorab definierte prozedurale Angaben erkennen und den Text entsprechend formatieren.
Hinweis | ||||
---|---|---|---|---|
| ||||
I. Ordnen Sie die folgenden Tags in die Kategorien "prozedural"/ "deskriptiv" zu! <fett> ... </fett> <italienisch>...</italienisch> <umbruch/ > <eigenname> ... </eigenname>
Lösung: prozedural: <fett> ... </fett>, <umbruch/ > deskriptiv: <italienisch>...</italienisch>, <eigenname> ... </eigenname> |
Die Macht der Zeichen
Die Tag-Struktur der XML-Kodierung stützt sich auf Zeichen, die als XML-Typisch definiert sind. Tags sind durch spitze Klammern markiert, Attribute durch Anführungzeichen. Betrachten wir noch einmal den Kopf und ein beliebiges Element eines XML-Dokuments:
...
Und die übrigen? Für das Parsen der übrigen Zeichen ist entscheidend, dass sie nur in bestimmten Zeichenkombinationen vorkommen. So befindet sich das Fragezeichen ausschließlich direkt nach einer öffnenden spitzen Klammer oder vor einer schließenden spitzen Klammer. Das Ausrufezeichen lässt sich lediglich im Anschluss an eine öffnende spitze Klammer finden, das Gleichheitszeichen nur Anführungsstrichen vorausgehend und der Schrägstrich steht ausschließlich nach einer öffnenden spitzen Klammer oder vor einer schließenden spitzen Klammer (mit oder ohne Leerstelle). Wird eins dieser Zeichen außerhalb der beschriebenen Kombinationen verwendet, wird es als konkretes Zeichen gedeutet. Zudem ist der jeweils andere Bestandteil der Kombination mithilfe der Umschreibungen darstellbar, was zur Folge hat, dass auch die Kombinationen als konkrete Zeichenfolge im Text verwendet werden können (z.B. <! als <!>). Die Notwendigkeit der Umschreibung liegt auch dann vor, wenn die Zeichen im Inneren eines Attributnamens auftreten.
Info | ||||
---|---|---|---|---|
| ||||
Ein XML-fähiger Editor...
Die Dokumenttypdefinition
Prozedural und deskriptiv
Zeichen |