Drei Ebenen der Strukturierung
Im Grunde bietet Transcriber drei unterschiedliche Strukturierungsebenen: Sektionen, Turns und Segmente. Während Turns den Text einzelnen Sprechern zuweisen, ordnen ihn Sektionen Typen und Themen zu. Alle drei Elemente enthalten Zeitcodes, die als Attribut-Wert-Paar kodiert werden:
Benutzeroberfläche | XML (Beispiel) | In XML kodierte Information (Beispiel) |
---|---|---|
Neues Segment beginnt bei 1735.328 im Timecode. | ||
Neuer Turn, gesprochen von spk2 (= LD386) beginnt bei 10.212 und endet bei 15.969. | ||
Neue Sektion der Kategorie "report" beginnt bei 0 und endet bei 23.4 und befasst sich mit dem Thema "to1" ( = Omelette). |
Diese drei Ebenen sind hierarchisch angelegt und können sich nicht überschneiden. Jede Sektion beginnt mit einem neuen Turn, jeder neue Turn mit einem neuen Segment. Oder Anders: Ein Segment kann nicht in zwei Turns hineinreichen, ein Turn nicht in zwei Sektionen. Schematisch ließe sich dies folgendermaßen darstellen:
Positionierung auf der Zeitachse
Es sei darauf hingewiesen, dass Turn und Section eine Spanne markieren, Sync hingegen nur als eine punktuelle Markierung fungiert. Während also die Teilmcodes der Elemente <Section> und <Turn> "Dieses Segment/ Dieser Turn reicht von ... bis ..." ausdrücken, sagt der Code von <Sync> lediglich "Dieses Segment beginnt hier" aus. Erkennen lässt sich dies zum einen daran, dass die zeitliche Dimension von Sync eben nur mit einem Zeitattribut (time) beschrieben wird, die von Section und Turn jedoch mit startTime UND mit endTime. Zum anderen sind Start- und Endtag bei Sync anders als bei Section und Turn in einer Klammer vereint, sodass kein Inhalt gerahmt werden kann. Will man ein neues Segment beginnen, so heißt der Befehl an das Menu der Benutzeroberfläche nicht "Start new segment", sondern "Insert breakpoint".
Auch wenn Turns und Sektionen Zeitcodes zugeordnet werden, orientieren sich diese eigentlich an den punktuellen Segmentmarkierungen.
Anfang entspricht... | Ende entspricht... | |
---|---|---|
Sync | dem gesetzten Breakpoint | - |
Turn | dem erstem gesetzen Breakpoint im Turn | dem ersten gesetzten Breakpoint im nächsten Turn |
Section | dem ersten gesetzten Breakpoint im ersten Turn der Sektion | dem ersten gesetzten Breakpoint im ersten Turn in der nächsten Sektion |
Mit diesen Markierungen schafft es das Tool, Text an vorausgehende Breakpoints (<Sync>) zu knüpfen und in das folgende Format zu bringen:
Attribute der strukturierenden Tags
Neben den oben präsentierten Timecodes besitzen die strukturierenden Elemente Turn und Section im XML-Code weitere Attribut-Wert-Paare, die die Elemente mit sinnvollen Informationen anreichern. Diese lassen sich wie folgt zusammenfassen:
Element | Attribut | Mögliche Werte |
---|---|---|
Turn | speaker | spk1, spk2, spk3, ... |
Section | type | report, filler, nontrans |
topic | to1, to2, to3, ... |
Überleitend lässt sich nun die längst überfällige Frage stellen, woher das Tool weiß, dass in dieser Datei z.B. spk2 mit Sprecher LD386 und spk1 mit PB gleichzusetzen ist.