Versionen im Vergleich

Schlüssel

  • Diese Zeile wurde hinzugefügt.
  • Diese Zeile wurde entfernt.
  • Formatierung wurde geändert.

...

Im Grunde bietet Transcriber drei unterschiedliche Strukturierungsebenen: Sektionen, Turns und Segmente. Während Turns den Text einzelnen Sprechern zuweisen, ordnen ihn Sektionen Typen und Themen unter.zu. Alle drei Elemente enthalten Zeitcodes, die als Attribut-Wert-Paar kodiert werden:

BenutzeroberflächeXML (Beispiel)In XML kodierte Information (Beispiel)
Image ModifiedImage ModifiedNeues Segment beginnt bei 1735.328 im Timecode.
Image ModifiedImage ModifiedNeuer Turn, gesprochen von spk2 (= LD386) beginnt bei 10.212 und endet bei 15.969.
Image ModifiedImage ModifiedNeue Sektion der Kategorie "report" beginnt bei 0 und endet bei 23.4 und befasst sich mit dem Thema "to1" ( = Omelette).

...

Es sei darauf hingewiesen, dass Turn und Section eine Spanne markieren, Sync hingegen nur als eine punktuelle Markierung fungiert. Während also die Teilmcodes der Elemente <Section> und <Turn> "Dieses Segment/ Dieser Turn reicht von ... bis ..." ausdrücken, sagt der Code von <Sync> lediglich "Dieses Segment beginnt hier" aus. Erkennen lässt sich dies zum einen daran, dass die zeitliche Dimension von Sync eben nur mit einem Zeitattribut (time) beschrieben wird, die von Section und Turn jedoch mit startTime UND mit endTime. Zum anderen sind Start- und Endtag bei Sync anders als bei Section und Turn in einer Klammer vereint, sodass kein Inhalt gerahmt werden kann. Will man ein neues Segment beginnen, so heißt der Befehl an die das Menu der Benutzeroberfläche nicht "Start new segment", sondern "Insert breakpoint".

...

 Anfang entspricht...Ende entspricht...
Syncdem gesetzten Breakpoint-
Turndem erstem gesetzen Breakpoint im Turndem ersten gesetzten Breakpoint im nächsten Turn
Sectiondem ersten gesetzten Breakpoint im ersten Turn der Sektiondem ersten gesetzten Breakpoint im ersten Turn in der nächsten Sektion

Mit diesen Markierungen schafft es das Tool, Text an vorausgehende Breakpoints (<Sync>) zu knüpfen und in das folgende Format zu bringen:

Image Added

Attribute der strukturierenden Tags

Neben den oben präsentierten Timecodes besitzen die strukturierenden Elemente Turn und Section im XML-Code weitere Attribut-Wert-Paare, die die Elemente mit sinnvollen Informationen anreichern. Diese lassen sich wie folgt zusammenfassen:

ElementAttributMögliche Werte
Turnspeakerspk1, spk2, spk3, ...
 modespontaneous, planned
 fidelityhigh, medium, low
 channelstudio, telephone
Sectiontypereport, filler, nontrans
topicto1, to2, to3, ...

Dabei kodiert speaker den Sprecher des entsprechenden Turns, type den Typus der Sektion

...

und topic dient einer thematischen Kategorisierung.

Die Sektionsattribute können auf der Benutzeroberfläche über den Menüpunkt Segmentation>Edit section attributes bearbeitet werden:

Image Added

speaker, mode, fidelity und channel werden parallel dazu auf der Benutzeroberfläche bei den Turnattributen (Strg + Alt + t, Segmentation>Edit turn attributes) eingestellt werden:

Image Added

Wie in der obigen Tabelle erkennbar wird, sind die möglichen Werte, die einem Attribut zugeordnet werden können entweder begrenzt (type, fidelity, mode, channel) oder potentiell unendlich (speaker, topic). Dass dieser Unterschied von Bedeutung ist, zeigt ein Vergleich der Werte in XML mit ihrer Darstellung auf der Benutzeroberfläche:

Attribut in XMLWert in XMLEntsprechung auf der BenutzeroberflächeGrafisches Beispiel
speakerspk1, spk2PB, LD386Image Added
typereport, (filler,) nontransreport, (filler,) nontransImage Added
topicto1, to2, to3, ...E1, E2, E4, ... QP01, QP02, ... Omelette, ...Image Added


Hier zeigt sich, dass nur Werte des begrenzten Repertoires von type auch auf der Benutzeroberfläche zu finden sind. Die Werte von speaker und topic werden hingegen umbenannt.

fidelity, channel und mode werden auf der Benutzeroberfläche nicht angezeigt, sind aber im XML-Code vorhanden:

Image Added

Dieses Beispiel zeigt auch, dass das Attribut-Wert-Paar speaker="" im XML-Code wegfällt, wenn bei den Turnattributen der Benutzeroberfläche no speaker markiert ist.

Überleitend lässt sich in diesem Zusammenhang die längst überfällige Frage stellen, woher das Tool weiß, dass in dieser Datei z.B. spk2 mit Sprecher LD386 und spk1 mit PB gleichzusetzen ist.###