Versionen im Vergleich

Schlüssel

  • Diese Zeile wurde hinzugefügt.
  • Diese Zeile wurde entfernt.
  • Formatierung wurde geändert.

...

Keine Idee für Anwendungsmöglichkeiten? Eventuell erfordern Tools, so wie das Annotationstool TreeTagger, dass Texte in einer bestimmten Form vorliegen. Bei TreeTagger entpräche dies der Formatierung ein Wort pro Zeile. Eine solche Form könnte zum Beispiel hergestellt werden, indem alle Leerstellen (_) durch \n ersetzt werden. Auch lassen sich Daten von überflüssigen Zeichen reinigen. Will ich beispielsweise Interpunktionszeichen aus meinem Korpus entfernen, so ist dies über eine Ersetzung von [.?:,!] durch nichts (also durch ein leeres Ersetz-Feld) zu bewerkstelligen. Auch die Anordnung von Textbausteinen lässt sich durch die Ersetzfunktion mithilfe der Verweise verändern. Dazu werden Gruppen definiert (z.B. (a)(b)(c)) und ihre Reihenfolge unter Rückgriff auf ihre Kennzahlen verändert (z.B. zu \3\2\1).