Sammlung extrem großer Webkorpora zu diversen romanischen Sprachen
Sprache | Niederländisch, Englisch, Französisch, Deutsch, Spanisch, Schwedisch |
Sprachliche Realisierung | schriftlich |
Umfang | Gigatoken-Webkorpora, die zum Teil 10-20 Milliarden Tokens umfassen |
Medium | Sammlung von Texten aus dem Internet |
Geographischer Ursprung | Europa |
Zeitliche Einordnung | ab 2011 |
Form der Daten | gesammelte Texte aus dem Internet, online durchsuchbar mithilfe der Suchmaske Colibri² |
Format | HTML, tab-separated files (TSV) |
Annotation | tokenisiert, zum Teil lemmatisiert und part-of-speech-annotiert |
Mögliche Suchabfragen | Suche nach Wörtern, Wortfolgen, Lemmata und Wortarten; die Ergebnisse sind exportierbar |
Quelle/Herausgeber | Felix Bildhauer, Roland Schäfer, Freie Universität Berlin |
Nutzungsvoraussetzungen | kostenlose Registrierung erforderlich |
Link | |
Literatur | Schäfer, Roland (2015): "Processing and querying large web corpora with the COW14 architecture". In: Proceedings of Challenges in the Management of Large Corpora (CMLC-3). Download Weitere Literaturtips auf der Hompage |