Datenmanagement beinhaltet das Erstellen von Datenbanken und Tabellen, sowie die Aufbereitung der Daten in eine Form, die von den gängigen Statistikprogrammen verstanden wird. Außerdem sollen die Daten so vorliegen, dass statistische Analysen an ihnen vorgenommen werden können. Das heißt zum Beispiel, dass die Daten gesäubert, Teilmengen gebildet, Variablen umbenannt und auf fehlende Werte geachtet wird.
Inhaltsverzeichnis
Programme
Folgende Programme eignen sich zum Erstellen und bearbeiten von Datensätzen.
SPSS
Excel
SQL/MS Access/SQLite
Allgemeine Grundsätze
Einige Grundsätze sind, unabhängig vom benutzen Programm, bei jeder Art von Datenmanagement zu beachten.
Struktur des Datensatzes
Spalten sind Variablen (z.B.) , Zeilen sidn Beobachtungen
Variablen
Variablennamen
Einfach-/mehrfachnennung
Skalenniveaus
Dummyvariablen
Für jede Meßgröße eine Variable, keine Kombination
Einträge
Keine Umlaute, Akzente
"." statt ","
keine Maßeinheiten (diese sollen in die Variablenbeschreibung)
Erstellen eines eigenen Datensatzes
Arbeiten mit einem vorgefertigten Datensatz
Bei der Arbeit mit einem vorgefertigten Datensatz, wie zum Beispiel dem ALLBUS Datensatz, der auf fu:stat:thesis als Beispiel benutzt wird, ist im Allgemeinen als erstes die beigefügte Dokumentation zu Rate zu ziehen.
Programmspezifische Probleme/Aspekte
Missing values in R und SPSS, "." oder "NA"
Datumsprobleme in Excel
Keine Farben verwenden in Excel
Arbeiten mit sehr großen Datensätzen
Bei sehr großen Datensätzen bietet es sich an, die Daten erst mit erst mit einem Programm zu verarbeiten, das komplexe Suchabfragen und Datenbearbeitung für große Datenbanken beherrscht. Dies tun zum Beispiel die Programme MS Access und SQLite, die die Programmiersprache SQL benutzen. Der Wikipedia Artikel bietet einen guten Überblick über die einfachen Befehle, die sehr mächtige Datenabfragen erlauben. Eine Vielzahl von weiteren Tutorials ist im Internet frei verfügbar.