Versionen im Vergleich

Schlüssel

  • Diese Zeile wurde hinzugefügt.
  • Diese Zeile wurde entfernt.
  • Formatierung wurde geändert.

...

  • einen Referenzbereich systematisch abdeckt (z.B. Pariser Jugendsprache, diplomatische Korrespondenzen im Spanien des 18. Jh.).
  • zur Beantwortung ganz bestimmter sprachwissenschaftlicher Untersuchungsfragen dient (z.B. Suche nach Anglizismen, Häufigkeit bestimmter Verbformen).

Ein Korpus muss quantitativ ausbalanciert sein. Das bedeutet nicht nur, dass die Textdaten einen gewissen Umfang aufweisen müssen, sondern auch, dass sie in ihrer Auswahl repräsentativ für den Referenzbereich sein müssen. Repräsentativität ist beispielsweise nicht gegeben, wenn man Aussagen über lexikalische Besonderheiten Südfrankreichs treffen will, jedoch ausschließlich Sprachdaten jüngerer Sprecher erhebt, da ihr Sprachgebrauch von dem älterer Sprecher abweichen kann und somit nicht mit dem generellen Usus Südfrankreichs gleichzusetzen ist.

...

Auch sollte darauf geachtet werden, texttypologische Grenzen nicht zu überschreiten. In der Regel begrenzt sich die Datengrundlage auf einen einzigen Texttypus, z.B. Literatur, Zeitung, Gesetzestexte, Blogs, transkribierte Sprachaufnahmen, etc..

Im Hinblick auf das Datenformat muss vermerkt werden, dass Textdaten nicht einfach als Fließtext vorliegen, sondern in irgendeiner Weise aufbereitet wurden:

  • Ihr Format orientiert sich an bestimmten Kodierungsstandards (z.B. XML), wodurch sie computerlesbar werden. Analyseprogramme und Suchmasken können anhand eines klar definierten Formats des Volltexts zielgerichtet Informationen hinzufügen, ändern, löschen oder herausfiltern.
  • Sie sind annotiert, d. h. mit zusätzlichen (unsichtbaren) Informationen angereichert. Dabei kann es sich um Metadaten (z.B. Autor/ Sprecher, Alter, Ort, Datum, Varietät…) oder auch um linguistische Informationen (Wortarten, Lemmata) handeln. 

Ein Kodierungsstandard macht es möglich, große Datenmengen automatisiert und schnell zu durchsuchen und zu analysieren, da er bewirkt, dass sprachliche Merkmale computerlesbar und dadurch zählbar gemacht werden. Sind die Textdaten mit linguistisch orientierten Annotationen oder Metadaten versehen, so können Sprachregister, Varietäten, Sprachwandel, Sprachkontakt usw. bei der Analyse der Frequenzen charakteristischer Merkmale berücksichtigt werden. Auf diese Weise wird dem Zusammenhang zwischen außersprachlichen Faktoren (Alter, Herkunft, Bildung…) und sprachlichen Phänomenen (Soziolinguistik) die notwendige Aufmerksamkeit zuteil.