Page tree

Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

Sammlung von Texten und Transkriptionen verschiedener Korpora (Est Républicain, TCOF, Frantext), die mithilfe von Tree Tagger TreeTagger POS-annotiert und Lemmatisiert wurden.

Das Korpus ist auf der Seite des CNRTL (Centre National de Ressources Textuelles et Lexicales) zum Download verfügbar.

 

Sprache

Französisch

Sprachliche Realisierung

schriftlich und mündlich

Umfang

gesprochene Sprache: ca. 102.000 Tokens

geschriebene Sprache: ?

Medium

Lemmatisiertes und morphosyntaktisch annotiertes Korpus, bestehend aus den Teilkorpora L'Est Républicain, TCOF und Frantext.

Das verwendete Annotationsschema ist ebenfalls verfügbar und kann für das Tagging ähnlicher Korpora verwendet werden.

Geographischer Ursprung

Frankreich

Zeitliche Einordnung

Teilkorpus L'Est Républicain: 1999, 2002, 2003

Teilkorpus Frantext: 18.-20. Jh.

Teikorpus TCOF: 1980er und 1990er-Jahre

Form der Daten

PERCEO Oral ist im Textformat mit dem dazugehörigen Annotationsschema und der TreeTagger-Datei herunterladbar

Format

txt, par

Annotation

mehrfach korrigierte Lemmatisierung und POS-Annotation mit TreeTagger

Mögliche Suchabfragen

Lemma, Wortart

Quelle/Herausgeber

 ATILF (CNRS - Université de Lorraine) & INIST (CNRS) - LIPN / CNRTL

Nutzungsvoraussetzungen

Zugang frei

Link

http://cnrtl.fr/corpus/perceo/