Sie zeigen eine alte Version dieser Seite an. Zeigen Sie die aktuelle Version an.

Unterschiede anzeigen Seitenhistorie anzeigen

« Vorherige Version anzeigen Version 11 Nächste Version anzeigen »

Datenmanagement beinhaltet das Erstellen von Datenbanken und Tabellen, sowie die Aufbereitung der Daten in eine Form, die von den gängigen Statistikprogrammen verstanden wird. Außerdem sollen die Daten so vorliegen, dass statistische Analysen an ihnen vorgenommen werden können. Das heißt zum Beispiel, dass die Daten gesäubert, Teilmengen gebildet, Variablen umbenannt und auf fehlende Werte geachtet wird.

Im Folgenden beschreiben wir einige Grundsätze, die bei jeder Art von Datenmanagement zu beachten sind.

Inhaltsverzeichnis

Struktur des Datensatzes

Die Struktur eines Datensatzes sollte in Form einer Tabelle sein. Die Spalten stehen hierbei für die Variablen, d.h. für die Meßgrößen, also z.B. Körpergewicht oder Größe. Die Zeilen sind die einzelnen Beobachtungen, z.B. Personen. Die Einträge stellen dann den Wert der jeweiligen Variablen für eine Beobachtung dar. Dies könnte zum Beispiel das Körpergewicht von Versuchsperson 3 sein. Das folgende Bild des ALLBUS Datensatzes ist beispielhaft für die Tabellenstruktur.

BILD

 

Variablen

Jede Variable hat ein Skalenniveau. Hierunter versteht man ob die Merkmalsauprägungen nominal-, ordinal oder intervallskaliert sind. Nominale oder ordinale Variablen werden auch kategoriale Variablen bezeichnet.  In manchen Programmen lässt sich das Skalenniveau für jede Spalte einstellen.

Variablennamen

Diese sollten kurz und prägnant sein.Längere Beschreibungen sollten separat gespeichert werden.

Einfach-/Mehrfachnennung

Sollte bei einer Umfrage Mehrfachnennung möglich sein, so muss für jede der möglichen Antworten eine eigene Variable angelegt werden.

Dummy-Variablen

Manche Statistikprogramme verstehen kategoriale Variablen mit mehr als zwei verschiedenen Merkmalsausprägungen, bei anderen Programmen muss eine kategoriale Variable mit k Merkmalsausprägungen in k (oder k-1) Dummy-Variablen aufgeteilt werden, die jeweils nur 0 (Merkmal nicht vorhanden) und 1 (Merkmal vorhanden) als Merkmalsausprägungen haben.

Eine Variable pro Merkmal

Werden mehrere Merkmale gleichzeitig und bei verschiedenen Personen in unterschiedlichen Kombinationen erfasst, so ist für jedes Merkmal eine eigene Variable anzulegen. Wird einer Versuchsperson bspw. eine Kombination aus Bild und Text vergelegt, so muss eine Variable für Bild und eine für Text erstellt werden, nicht nur eine einzige Variable, die eine Kombination aus Bild und Text codiert wiedergibt.

Einträge

Umlaute

Umlaute, Akzente sowie Sonderzeichen abgesehen von '.', '_' und '-' sollten generell vermieden werden, da diese teils zu Fehlermeldungen führen, bzw. der Text von Statistikprogrammen nicht richtig erkannt wird. Dies gilt ebenso für Variablen- und Dateinamen.

Punkt und Komma

Die meisten Programme arbeiten mit der amerikanischen Schreibweise von Dezimalzahlen, bei der ein Punkt statt des deutschen Kommas benutzt wird. Entsprechend sollten Einträge auch in dieser Form vorgenommen werden.

Maßeinheiten

Maßeinheiten sollten nicht Teil der Einträge sein. Statt 1000€ als Eintrag, sollte 1000 eingtragen werden und die Einheiten in der Variablenbescchreibung erwähnt werden (Haushalteinkommen in Euro).

Fehlende Werte

leer lassen, NA, '.'

Datensatz

Erstellen eines eigenen Datensatzes

Schon vor der ersten Befragung oder dem ersten Experiment, sollte der Aufbau des Datensatzes klar sein. Hierduch lassen sich eventuelle spätere Unklarheiten vermeiden.

Arbeiten mit einem vorgefertigten Datensatz

Dokumentation

Bei der Arbeit mit einem vorgefertigten Datensatz, wie zum Beispiel dem ALLBUS Datensatz, der auf fu:stat:thesis als Beispiel benutzt wird, ist im Allgemeinen als erstes die beigefügte Dokumentation zu Rate zu ziehen. Hieraus sollte man auf jeden Fall folgende Informationen gewinnen:

  • Codierung von fehlenden Werten
  • Skalenniveaus
  • Wertebereiche
  • Dimensionalität/Maßeinheiten
  • Informationsverlust aufgrund von Anonymisierung und Vertraulichkeit

Sollten diese Informationen nicht in der Dokumentation vorliegen, so sollten sie so gut wie möglich aus den Daten selbst erschlossen werden.

Einlesen des Datensatzes

Beim Einlesen des Datensatzes muss zuerst darauf geachtet werden, in welchem Dateiformat die Daten vorliegen. Dies lässt sich einfach an der Dateiendung erkennen und natürlich muss das Statistikprogramm dieses Dateiformat auch einlesen können. Wenn dies nicht möglich ist, muss das Dateiformat geändert werden. So können z.B. Excel-Tabellen auch im .csv Format abgespeichert werden, was nahezu universell lesbar ist.

Die meisten Statistikprogramme bringen einen "Wizard" zum einlesen von Daten mit. Dieser erlaubt oftmals das Dateneinlesen komfortabel zu gestalten und eventuelle Optionen einfach zu ändern.

Überprüfen

Wenn der Datensatz eingelesen ist, sollte zuerst überprüft werden, ob das richtig geschehen ist. Ein Blick auf die erste Zeile zeigt zum Beispiel, ob die Kopfzeile, die die Variablennamen enthält, richtig erkannt worden ist, oder ob sich nun Variablennamen in den Einträgen befinden.

 

  • Passen die eingelesenen Daten zur Dokumentation? Text in numerischen Variablen?
  • Säubern des Datensatzes nach den Regeln im Paragrafen oben.

 

Falsche Einträge erkennen/Outlier detection

Nachdem der eigene Datensatz erstell worden ist oder ein Datensatz eingelesen worden ist, erfolgt eine erste explorative Analyse. Hier werden z.B. falsche Einträge, zum Beispiel viel zu Hohe, erkannt. Siehe hierfür den Artikel LINK.

 

Große Datensätze/Big Data

Bei sehr großen Datensätzen bietet es sich an, die Daten erst mit erst mit einem Programm zu verarbeiten, das komplexe Suchabfragen und Datenbearbeitung für große Datenbanken beherrscht. Dies tun zum Beispiel die Programme MS Access und SQLite, die die Programmiersprache SQL benutzen. Der Wikipedia Artikel bietet einen guten Überblick über die einfachen Befehle, die sehr mächtige Datenabfragen erlauben. Eine Vielzahl von weiteren Tutorials ist im Internet frei verfügbar.

 

Programme

Verfügbare Programme

Folgende Programme eignen sich zum Erstellen und bearbeiten von Datensätzen.

  • SPSS
  • Excel
  • SQL/MS Access/SQLite

Programmspezifische Probleme/Aspekte

  • Missing values in R und SPSS, "." oder "NA"
  • Datumsprobleme in Excel
  • Keine Farben verwenden in Excel. Diese Informationen gehen beim Einlesen in die meisten Statistikprogramme verloren.
  • Formeln in Excel, sowie Verweise auf andere Tabellen, werden eventuell nicht erkannt

 

  • Keine Stichwörter