Seitenhistorie

...

Sprache	Englisch, Französisch, Deutsch, Italienisch
Sprachliche Realisierung	schriftlich
Umfang	bis zu 2 Milliarden Wörter pro Korpus
Medium	Acht Internet-Korpora in vier Sprachen, darunter ukWac, frWac, deWac und itWac. Diese Korpora wurden anhand von Vokabel- und Frequenzlisten Stichwortlisten aus den Domains der jeweiligen Sprache extrahiert. Verfügbar sind auch annotierte Versionen der französischen und englischen Wikipedia.
Geographischer Ursprung
Zeitliche Einordnung		Daten zu Sprecher(n)/Verfasser(n)	aktuell
Form der Daten	große Textmengen aus dem Internet, online durchsuchbar. Download auf Anfrage möglich.
Format	HTML
Annotation	zum Teil Lemmatisierung und part-of-speech-Annotation, zum Teil syntaktisches Parsing
Mögliche Suchabfragen	Wörter, Sätze, Lemmata, Wortarten, reguläre Ausdrücke. Die Suchergebnisse werden mit Konkordanzen ausgegeben.
Quelle/Herausgeber	Universitäten Bologna, Pisa, Trento, Stuttgart, Darmstadt, Hildesheim, Naval, Oslo, Pecara, Leeds und Tokio
Nutzungsvoraussetzungen	Zugang frei
Link	Einführung: http://wacky.sslmit.unibo.it/doku.php Korpus-Übersicht: http://wacky.sslmit.unibo.it/doku.php Suchmaske: http://nl.ijs.si/noske/wacs.cgi/first_form?corpname=itwac;align=
Literatur	M. Baroni, S. Bernardini, A. Ferraresi and E. Zanchetta (2009): "The WaCky Wide Web: A Collection of Very Large Linguistically Processed Web-Crawled Corpora". In: Language Resources and Evaluation 43 (3), 209-226. Download

Seitenhierarchie