Sie zeigen eine alte Version dieser Seite an. Zeigen Sie die aktuelle Version an.

Unterschiede anzeigen Seitenhistorie anzeigen

« Vorherige Version anzeigen Version 9 Nächste Version anzeigen »

Mikrostruktur

Auch wenn XML dem Kodierenden im Vergleich zu HTML eine freiere Textauszeichnung erlaubt, muss auch die XML-Kodierung bestimmten Regeln folgen, um als wohlgeformt gelten zu können.

Grob betrachtet besteht ein XML-Dokument aus Tags und Inhalt. Der Inhalt, gewissermaßen der pure Text, wird durch Tags, erkennbar an der Klammerschreibweise (<...>), mit Informationen angereichert:

<nomen> Auszeichnungssprache </nomen>

Der Inhalt Auszeichnungssprache wird hier mithilfe der Tags als nomen ausgezeichnet. Tags müssen stets als Paar auftreten, als eine Kombination von Start-Tag und End-Tag, in unserem Beispiel <nomen> und </nomen>. Abgesehen von dem Slash, der das End-Tag markiert, müssen Start- und End-Tag identisch sein, auch im Hinblick auf die Großschreibung. Das Starttag <nomen> in Kombination mit dem Endtag </Nomen> bilden keine wohlgeformte XML-Struktur und würden beim Parsen des Dokuments eine Fehlermeldung hervorrufen. Anfangs- und End-Tag können alternativ auch in einem einzigen Klammerpaar zusammengefasst werden:

<pause></pause>
<pause/>
<pause />

Die beiden alternativen Schreibweisen eignen sich für Tags, deren Anfangs- und End-Tag direkt aufeinander folgen würden und welche somit keinen Inhalt rahmen, wie zum Beispiel in <satz> Das ist <fehlender_artikel/> Auszeichnungssprache </satz> oder <satz> Das ist eine <pause/> Auszeichnungssprache </satz>.

Start- und End-Tag bilden Anfang und Ende eines Elements. Elemente können andere Elemente enthalten und auf diese Weise eine hierarchische Struktur schaffen. <wort><nomen>Auszeichnungssprache</nomen></wort> ließe sich folgendermaßen visualisieren:

<wort>
	<nomen> Auszeichnungssprache </nomen>
</wort>

Das Element <nomen> befindet sich innerhalb des Elements <wort> und liegt folglich eine Ebene tiefer in der Elementhierarchie. Elemente können zwar geschachtelt sein, dürfen sich jedoch nicht überkreuzen. Während eine Struktur wie <wort><nomen>Auszeichnungssprache</nomen></wort> als wohlgeformt gilt, steht <wort><nomen>Auszeichnungssprache</wort></nomen> im Widerspruch zu den Regeln der XML-Struktur.

<wort>
	<nomen> Auszeichnungssprache </nomen>
</wort>

Im Vergleich zu der nicht-wohlgeformten Struktur:

<wort>
	<nomen> Auszeichnungssprache
</wort>
	</nomen>

Einem Element können zudem Attribute und Werte zugeordnet werden, um mitgetragene Informationen zu präzisieren und unnötige Hierarchietiefen zu vermeiden. <wort><nomen>Auszeichnungssprache</nomen></wort> ließe sich ohne Informationsverlust auch als <wort wortart="nomen">Auszeichnungssprache</wort> darstellen. Dabei bildet wortart das Attribut, das in die Klammer durch eine Leerstelle getrennt auf den Elementnamen im Anfangs-Tag folgt. Der durch ein = mit dem Attribut verbundene Wert wird in Anführungsstriche gesetzt. In der Regel kann ein Element beliebig viele Attribute/Werte fassen.

<wort wortart="nomen" genus="f" wortbildung="kompositum"> Auszeichnungssprache </wort>

Makrostruktur

Neben der Mikrostruktur ist auch die Makrostruktur eines XML-Dokuments für dessen Wohlgeformtheit von Relevanz.

<?xml version="1.0" encoding="ISO-8859-1" standalone="yes ?>
<beispiel>
	<titel> Ein Satz </titel>
	<satz>
		<subjekt>
			<pronomen> Ich </pronomen> 
              	</subjekt>
        	<prädikat> 
             		<verb> lerne </verb> 
        	</prädikat>
		<objekt>
			<artikel>eine</artikel> 							
			<nomen>Auszeichnungssprache</nomen>
		</objekt>
	</satz>
</beispiel>

 

(Kopf, XML-Deklaration, Dokumenttypdeklaration)

Betrachtet man die pronomen, verb, artikel und nomen übergeordneten Elemente titel und satz, stellt man fest, dass sie nicht die erste Hierarchieebene bilden, sondern dem Element beispiel untergeordnet sind. Dies resultiert aus einer weiteren Regel für die Wohlgeformtheit von XML-Dokumenten, nach welcher die erste Hierarchieebene (klammert man den Kopf aus) aus genau einem Element bestehen muss. Dieses Element wird als Wurzelelement bezeichnet und rahmt das gesamte sich unter dem Kopf befindende XML-Dokument. Während also jede weitere Hierarchieebene beliebig viele Elemente enthalten kann, besteht die erste Ebene aus genau einem Element, dem Wurzelelement. Untergeordnete Elemente werden als Kinder (children) bezeichnet, übergeordnete als Eltern (parents). Elemente auf der zweiten Hierarchieebene sind Kinder des Wurzelelements und Eltern der Elemente der dritten Hierarchieebene. Elemente der dritten Ebene sind Kinder der Elemente der zweiten Ebene und Eltern der Elemente der vierten Ebene, u.s.w. .

 

 

  • Keine Stichwörter