Mikrostruktur
Auch wenn XML dem Kodierenden im Vergleich zu HTML eine freiere Textauszeichnung erlaubt, muss auch die XML-Kodierung bestimmten Regeln folgen, um als wohlgeformt gelten zu können.
Grob betrachtet besteht ein XML-Dokument aus Tags und Inhalt. Der Inhalt, gewissermaßen der pure Text, wird durch Tags, erkennbar an der Klammerschreibweise (<...>), mit Informationen angereichert:
<nomen> Auszeichnungssprache </nomen>
Der Inhalt Auszeichnungssprache wird hier mithilfe der Tags als nomen ausgezeichnet. Tags müssen stets als Paar auftreten, als eine Kombination von Start-Tag und End-Tag, in unserem Beispiel <nomen> und </nomen>. Abgesehen von dem Slash, der das End-Tag markiert, müssen Start- und End-Tag identisch sein, auch im Hinblick auf die Großschreibung. Das Starttag <nomen> in Kombination mit dem Endtag </Nomen> bilden keine wohlgeformte XML-Struktur und würden beim Parsen des Dokuments eine Fehlermeldung hervorrufen. Anfangs- und End-Tag können alternativ auch in einem einzigen Klammerpaar zusammengefasst werden:
<pause></pause>
<pause/>
<pause />
Die beiden alternativen Schreibweisen eignen sich für Tags, deren Anfangs- und End-Tag direkt aufeinander folgen würden und welche somit keinen Inhalt rahmen, wie zum Beispiel in <satz> Das ist <fehlender_artikel/> Auszeichnungssprache </satz> oder <satz> Das ist eine <pause/> Auszeichnungssprache </satz>.
Start- und End-Tag bilden Anfang und Ende eines Elements. Elemente können andere Elemente enthalten und auf diese Weise eine hierarchische Struktur schaffen. <wort><nomen>Auszeichnungssprache</nomen></wort> ließe sich folgendermaßen visualisieren:
<wort> <nomen> Auszeichnungssprache </nomen> </wort>
Das Element <nomen> befindet sich innerhalb des Elements <wort> und liegt folglich eine Ebene tiefer in der Elementhierarchie. Elemente können zwar geschachtelt sein, dürfen sich jedoch nicht überkreuzen. Während eine Struktur wie <wort><nomen>Auszeichnungssprache</nomen></wort> als wohlgeformt gilt, steht <wort><nomen>Auszeichnungssprache</wort></nomen> im Widerspruch zu den Regeln der XML-Struktur.
<wort> <nomen> Auszeichnungssprache </nomen> </wort>
Im Vergleich zu der nicht-wohlgeformten Struktur:
<wort> <nomen> Auszeichnungssprache </wort> </nomen>
Einem Element können zudem Attribute und Werte zugeordnet werden, um mitgetragene Informationen zu präzisieren und unnötige Hierarchietiefen zu vermeiden. <wort><nomen>Auszeichnungssprache</nomen></wort> ließe sich ohne Informationsverlust auch als <wort wortart="nomen">Auszeichnungssprache</wort> darstellen. Dabei bildet wortart das Attribut, das in die Klammer durch eine Leerstelle getrennt auf den Elementnamen im Anfangs-Tag folgt. Der durch ein = mit dem Attribut verbundene Wert wird in Anführungsstriche gesetzt. In der Regel kann ein Element beliebig viele Attribute/Werte fassen.
<wort wortart="nomen" genus="f" wortbildung="kompositum"> Auszeichnungssprache </wort>
Makrostruktur
Neben der Mikrostruktur ist auch die Makrostruktur eines XML-Dokuments für dessen Wohlgeformtheit von Relevanz.
<?xml version="1.0" encoding="ISO-8859-1" standalone="yes ?> <beispiel> <titel> Ein Satz </titel> <satz> <subjekt> <pronomen> Ich </pronomen> </subjekt> <prädikat> <verb> lerne </verb> </prädikat> <objekt> <artikel>eine</artikel> <nomen>Auszeichnungssprache</nomen> </objekt> </satz> </beispiel>