Versionen im Vergleich

Schlüssel

  • Diese Zeile wurde hinzugefügt.
  • Diese Zeile wurde entfernt.
  • Formatierung wurde geändert.

Das "Italian Web-As-Corpus" besteht aus online verfügbaren Texten, die durch web crawling gesammelt wurden.

Sprache

Italienisch

Sprachstufe

Standard

Sprachliche Realisierung

schriftlich

Umfang

ca. 1.5–2 Milliarden Tokens

Medium

Texte von Webseiten, die ausschließlich die Domain .it haben

Geographischer Ursprung

Italien

Form der Daten

Online-Texte

Format

Text, XML

Annotation

lemmatiziert

lemmatisiert, POS-Tags (automatisch annotiert), das Subkorpus von italienischem Wikipedia wurde zusätzlich mit Semantik und Syntax annotiert

Mögliche Suchabfragen

Mit Sketch Engine oder NoSketchEngine können Wortfrequenzen, n-grams, Konkordanzen usw. erstellt werden

Quelle/Herausgeber

Università di Bologna

Nutzungsvoraussetzungen

Anmeldung erforderlich für Sketch Engine

Link

https://corpora.dipintra.it/ (NoSketchEngine) oder https://www.sketchengine.eu/itwac-italian-corpus/

Zum Zitieren:

Baroni, Marco, Silvia Bernardini, Adriano Ferraresi & Eros Zanchetta. 2009. The WaCky Wide Web: A Collection of Very Large Linguistically Processed Web-Crawled Corpora. Language Resources and Evaluation 43(3). 209–226.