Mikrostruktur
Auch wenn XML dem Kodierenden im Vergleich zu HTML eine freiere Textauszeichnung erlaubt, muss auch die XML-Kodierung bestimmten Regeln folgen, um als wohlgeformt gelten zu können.
Grob betrachtet besteht ein XML-Dokument aus Tags und Inhalt. Der Inhalt, gewissermaßen der pure Text, wird durch Tags, erkennbar an der Klammerschreibweise (<...>), mit Informationen angereichert:
<nomen>Auszeichnungssprache<<nomen> Auszeichnungssprache </nomen>
Der Inhalt Auszeichnungssprache wird hier mithilfe der Tags als nomen ausgezeichnet. Tags müssen stets als Paar auftreten, als eine Kombination von Start-Tag und End-Tag, in unserem Beispiel <nomen> und </nomen>. Abgesehen von dem Slash, der das End-Tag markiert, müssen Start- und End-Tag identisch sein, auch im Hinblick auf die Großschreibung. Das Starttag <nomen> in Kombination mit dem Endtag </Nomen> bilden keine wohlgeformte XML-Struktur und würden beim Parsen des Dokuments eine Fehlermeldung hervorrufen. Start- und End-Tag bilden Anfang und Ende eines Elements.
Elemente können andere Elemente enthalten und auf diese Weise eine hierarchische Struktur schaffen. <wort><nomen>Auszeichnungssprache</nomen></wort> ließe sich folgendermaßen visualisieren:
<wort> <nomen> Auszeichnungssprache Auszeichnungssprache<</nomen> </wort>
Das Element <nomen> befindet sich innerhalb des Elements <wort> und liegt folglich eine Ebene tiefer in der Elementhierarchie. Elemente können zwar geschachtelt sein, dürfen sich jedoch nicht überkreuzen. Während eine Struktur wie <wort><nomen>Auszeichnungssprache</nomen></wort> als wohlgeformt gilt, steht <wort><nomen>Auszeichnungssprache</wort></nomen> im Widerspruch zu den Regeln der XML-Struktur.
<wort> <nomen> Auszeichnungssprache Auszeichnungssprache<</nomen> </wort>
Im Vergleich zu der nicht-wohlgeformten Struktur:
...
Einem Element können zudem Attribute und Werte zugeordnet werden, um mitgetragene Informationen zu präzisieren und unnötige Hierarchietiefen zu vermeiden. <wort><nomen>Auszeichnungssprache</nomen></wort> ließe sich ohne Informationsverlust auch als <wort wortart="nomen">Auszeichnungssprache</wort> darstellen. Dabei bildet wortart das Attribut, das in die Klammer durch eine Leerstelle getrennt auf den Elementnamen im Anfangs-Tag folgt. Der durch ein = mit dem Attribut verbundene Wert wird in Anführungsstriche gesetzt. In der Regel kann ein Element beliebig viele Attribute/Werte fassen.
<wort wortart="nomen" genus="f" wortbildung="kompositum"> Auszeichnungssprache </wort>
Makrostruktur
Neben der Mikrostruktur ist auch die Makrostruktur eines XML-Dokuments für dessen Wohlgeformtheit von Relevanz.
<?xml version="1.0" encoding="ISO-8859-1" standalone="yes ?>
<beispiel>
<titel> Ein Satz </titel>
<satz>
<subjekt>
<pronomen> Ich </pronomen>
</subjekt>
<prädikat>
<verb> lerne </verb>
</prädikat>
<objekt>
<artikel>eine</artikel>
<nomen>Auszeichnungssprache</nomen>
</objekt>
</satz>
</beispiel>