Das Korpus umfasst ca. 130 Stunden Sprachaufnahmen und besteht aus zwei Subkorpora (moduli). Im ‘KIP’ Subkorpus enthalten sind Interviews, Gespräche, Prüfungen, Sprechstunden und Unterrichtsstunden von Muttersprachlern mit mindestens einem Bachelor-Abschluss, die bis zu 65 Jahre alt sind. Das ‘ParlaTO’ Subkorpus besteht aus gesprochenen Interviews und umfasst eine weitere Altersgruppe sowie unterschiedliche Schul- und Universitätsabschlüsse. ParlaTO wird erst ab 2020 online verfügbar, KIP kann jetzt online mithilfe des NoSketchEngines durchsucht werden.
Sprache | Italienisch |
Varietät | (Regional-)Standard |
Sprachliche Realisierung | mündlich |
Umfang | ca. 130 Stunden, momentan sind nur ca. 660.000 Tokens online |
Medium | transkribierte Sprachaufnahmen, die in Bologna und Turin aufgenommen wurden |
Geographischer Ursprung | Bologna, Turin |
Zeitliche Einordnung | 2016–2019 |
Form der Daten | Transkripte von Sprachaufnahmen, online durchsuchbar und in verschiedenen Formaten herunterladbar, die dazugehörenden Audiodateien, umfassende Metadaten |
Format | HTML |
Annotation | noch nicht Verfügbar: PoS-Annotation und Lemmatisierung sind noch geplant |
Mögliche Suchabfragen | Das Korpus ist mit NoSketchEngine durchsuchbar, unterschiedliche Suchabfragen sind möglich: Kollokationen, Key Word in Context, usw. Eine ausführliche Anleitung finden Sie hier. Die Volltexte sind auch abrufbar, und die Suche kann durch unterschiedliche Metadaten (Dokumenttyp, Alter, usw.) eingeschränkt werden. |
Quelle/Herausgeber | Zusammenarbeit zwischen der Università di Bologna & Torino |
Nutzungsvoraussetzungen | Zugang frei |
Link | |
Zum Zitieren: | Mauri, Caterina, Silvia Ballarè, Eugenio Goria, Massimo Cerruti & Francesco Suriano. 2019. KIParla corpus: a new resource for spoken Italian. In: Bernardi, Raffaella, Roberto Navigli & Giovanni Semeraro (eds.), Proceedings of the 6th Italian Conference on Computational Linguistics CLiC-it. |