Auf der Benutzeroberfläche kann eine Datei in Transcriber folgendermaßen aussehen:
Dieser Darstellung lässt sich im Grunde bereits die grobe Struktur eines .trs-Dokuments entnehmen. Neue Textsegmente werden durch einen grünen Punkt am linken Fensterrand markiert. Ihnen übergeordnet sind die jeweiligen Turns, deren bläulich hervorgehobene Sprecherkennung (hier PB und LD386) den entsprechenden Segmenten vorausgeht. Zusätzliche Informationen sind in Grau verfasst und mit eckigen Klammern gerahmt (hier: +[pron=pi]). Am unteren Ende befindet sich die Tonspur, die mit den Grenzen der einzelnen Segmente(grün), Turns (blau) (und Sektionen (rot), später mehr) verknüpft ist.
Man könnte sich nun Gedanken über die Funktionsweise des Programms machen. Welche Informationen befinden sich - abgesehen von dem sichtbaren Text - in dem zugrundeliegenden XML-Dokument? Wie sind sie an den sichtbaren Text geknüpft? Wie wird der Unterschied zwischen dem grauen und dem schwarzen Text in XML ausgedrückt? Wie wird das ganze mit der Tondatei verknüpft? Die zugrundeliegende Kodierung muss all diese Informationen enhalten, damit die Benutzeroberfläche genau das zeigt, was zu sehen ist.
Für den oben gezeigten Ausschnitt sieht diese Kodierung folgendermaßen aus:
Die oben beschriebene Struktur lässt sich hier wiederfinden. So entspricht der grüne Punkt, der auf der Benutzeroberfläche den Anfang eines Textsegments kennzeichnet, in der XML-Darstellung dem Tag <Sync>. Turns, in der Benutzeroberfläche mit der Sprechermarkierung versehen, werden im XML-Dokument mit den Tags <Turn> und </Turn> gerahmt und die in Grau verfasste Zusatzinformation erhält hier die Kennung <Event>. Damit ist es jedoch noch nicht getan. Jedes dieser Elemente verfügt zudem über Attribute und Werte, die sie näher definieren und zum Beispiel eine Einordnung der Segmente und Turns auf der Zeitachse und dadurch eine Verknüpfung mit der Tonspur ermöglichen. Wie dies im Detail aussieht, soll im Folgenden erläutert werden.