Versionen im Vergleich

Schlüssel

  • Diese Zeile wurde hinzugefügt.
  • Diese Zeile wurde entfernt.
  • Formatierung wurde geändert.

...

Sprache

Englisch, Französisch, Deutsch, Italienisch

Sprachliche Realisierung

schriftlich

Umfang

bis zu 2 Milliarden Wörter pro Korpus

Medium

Acht Internet-Korpora in vier Sprachen, darunter ukWac, frWac, deWac und itWac. Diese Korpora wurden anhand von Vokabel- und Frequenzlisten Stichwortlisten aus den Domains der jeweiligen Sprache extrahiert. Verfügbar sind auch annotierte Versionen der französischen und englischen Wikipedia.

Geographischer Ursprung

 

Zeitliche Einordnung

 

Daten zu Sprecher(n)/Verfasser(n)

 aktuell

Form der Daten 

große Textmengen aus dem Internet, online durchsuchbar. Download auf Anfrage möglich.

Format

 HTML

Annotation 

zum Teil Lemmatisierung und part-of-speech-Annotation, zum Teil syntaktisches Parsing

Mögliche Suchabfragen 

Wörter, Sätze, Lemmata, Wortarten, reguläre Ausdrücke. Die Suchergebnisse werden mit Konkordanzen ausgegeben.

Quelle/Herausgeber 

Universitäten Bologna, Pisa, Trento, Stuttgart, Darmstadt, Hildesheim, Naval, Oslo, Pecara, Leeds und Tokio

Nutzungsvoraussetzungen 

Zugang frei

Link

Einführung: http://wacky.sslmit.unibo.it/doku.php

Korpus-Übersicht: http://wacky.sslmit.unibo.it/doku.php

Suchmaske: http://nl.ijs.si/noske/wacs.cgi/first_form?corpname=itwac;align=

LiteraturM. Baroni, S. Bernardini, A. Ferraresi and E. Zanchetta (2009): "The WaCky Wide Web: A Collection of Very Large Linguistically Processed Web-Crawled Corpora". In: Language Resources and Evaluation 43 (3), 209-226. Download