Transcriber: Strukturierende Tags

Drei Ebenen der Strukturierung

Im Grunde bietet Transcriber drei unterschiedliche Strukturierungsebenen: Sektionen, Turns und Segmente. Während Turns den Text einzelnen Sprechern zuweisen, ordnen ihn Sektionen Typen und Themen zu. Alle drei Elemente enthalten Zeitcodes, die als Attribut-Wert-Paar kodiert werden:

Benutzeroberfläche	XML (Beispiel)	In XML kodierte Information (Beispiel)
		Neues Segment beginnt bei 1735.328 im Timecode.
		Neuer Turn, gesprochen von spk2 (= LD386) beginnt bei 10.212 und endet bei 15.969.
		Neue Sektion der Kategorie "report" beginnt bei 0 und endet bei 23.4 und befasst sich mit dem Thema "to1" ( = Omelette).

Diese drei Ebenen sind hierarchisch angelegt und können sich nicht überschneiden. Jede Sektion beginnt mit einem neuen Turn, jeder neue Turn mit einem neuen Segment. Oder Anders: Ein Segment kann nicht in zwei Turns hineinreichen, ein Turn nicht in zwei Sektionen. Schematisch ließe sich dies folgendermaßen darstellen:

Positionierung auf der Zeitachse

Es sei darauf hingewiesen, dass Turn und Section eine Spanne markieren, Sync hingegen nur als eine punktuelle Markierung fungiert. Während also die Teilmcodes der Elemente <Section> und <Turn> "Dieses Segment/ Dieser Turn reicht von ... bis ..." ausdrücken, sagt der Code von <Sync> lediglich "Dieses Segment beginnt hier" aus. Erkennen lässt sich dies zum einen daran, dass die zeitliche Dimension von Sync eben nur mit einem Zeitattribut (time) beschrieben wird, die von Section und Turn jedoch mit startTime UND mit endTime. Zum anderen sind Start- und Endtag bei Sync anders als bei Section und Turn in einer Klammer vereint, sodass kein Inhalt gerahmt werden kann. Will man ein neues Segment beginnen, so heißt der Befehl an das Menu der Benutzeroberfläche nicht "Start new segment", sondern "Insert breakpoint".

Auch wenn Turns und Sektionen Zeitcodes zugeordnet werden, orientieren sich diese eigentlich an den punktuellen Segmentmarkierungen.

	Anfang entspricht...	Ende entspricht...
Sync	dem gesetzten Breakpoint	-
Turn	dem erstem gesetzen Breakpoint im Turn	dem ersten gesetzten Breakpoint im nächsten Turn
Section	dem ersten gesetzten Breakpoint im ersten Turn der Sektion	dem ersten gesetzten Breakpoint im ersten Turn in der nächsten Sektion

Mit diesen Markierungen schafft es das Tool, Text an vorausgehende Breakpoints (<Sync>) zu knüpfen und in das folgende Format zu bringen:

Attribute der strukturierenden Tags

Neben den oben präsentierten Timecodes besitzen die strukturierenden Elemente Turn und Section im XML-Code weitere Attribut-Wert-Paare, die die Elemente mit sinnvollen Informationen anreichern. Diese lassen sich wie folgt zusammenfassen:

Element	Attribut	Mögliche Werte
Turn	speaker	spk1, spk2, spk3, ...
Section	type	report, filler, nontrans
Section	topic	to1, to2, to3, ...

Überleitend lässt sich nun die längst überfällige Frage stellen, woher das Tool weiß, dass in dieser Datei z.B. spk2 mit Sprecher LD386 und spk1 mit PB gleichzusetzen ist.

Seitenhierarchie

Transcriber: Strukturierende Tags

Drei Ebenen der Strukturierung

Positionierung auf der Zeitachse

Attribute der strukturierenden Tags