...
Sprache | Englisch, Französisch, Deutsch, Italienisch | ||
Sprachliche Realisierung | schriftlich | ||
Umfang | bis zu 2 Milliarden Wörter pro Korpus | ||
Medium | Acht Internet-Korpora in vier Sprachen, darunter ukWac, frWac, deWac und itWac. Diese Korpora wurden anhand von Vokabel- und Frequenzlisten Stichwortlisten aus den Domains der jeweiligen Sprache extrahiert. Verfügbar sind auch annotierte Versionen der französischen und englischen Wikipedia. | ||
Geographischer Ursprung |
| ||
Zeitliche Einordnung |
| Daten zu Sprecher(n)/Verfasser(n) | aktuell |
Form der Daten | große Textmengen aus dem Internet, online durchsuchbar. Download auf Anfrage möglich. | ||
Format | HTML | ||
Annotation | zum Teil Lemmatisierung und part-of-speech-Annotation, zum Teil syntaktisches Parsing | ||
Mögliche Suchabfragen | Wörter, Sätze, Lemmata, Wortarten, reguläre Ausdrücke. Die Suchergebnisse werden mit Konkordanzen ausgegeben. | ||
Quelle/Herausgeber | Universitäten Bologna, Pisa, Trento, Stuttgart, Darmstadt, Hildesheim, Naval, Oslo, Pecara, Leeds und Tokio | ||
Nutzungsvoraussetzungen | Zugang frei | ||
Link | Einführung: http://wacky.sslmit.unibo.it/doku.php Korpus-Übersicht: http://wacky.sslmit.unibo.it/doku.php Suchmaske: http://nl.ijs.si/noske/wacs.cgi/first_form?corpname=itwac;align= | ||
Literatur | M. Baroni, S. Bernardini, A. Ferraresi and E. Zanchetta (2009): "The WaCky Wide Web: A Collection of Very Large Linguistically Processed Web-Crawled Corpora". In: Language Resources and Evaluation 43 (3), 209-226. Download |