Datenmanagement beinhaltet das Erstellen von Datenbanken und Tabellen, sowie die Aufbereitung der Daten in eine Form, die von den gängigen Statistikprogrammen verstanden wird. Außerdem sollen die Daten so vorliegen, dass statistische Analysen an ihnen vorgenommen werden können. Das heißt zum Beispiel, dass die Daten gesäubert, Teilmengen gebildet, Variablen umbenannt und auf fehlende Werte geachtet wird.
Folgende Programme eignen sich zum Erstellen und bearbeiten von Datensätzen.
Einige Grundsätze sind, unabhängig vom benutzen Programm, bei jeder Art von Datenmanagement zu beachten.
Spalten sind Variablen (z.B.) , Zeilen sidn Beobachtungen
Bei der Arbeit mit einem vorgefertigten Datensatz, wie zum Beispiel dem ALLBUS Datensatz, der auf fu:stat:thesis als Beispiel benutzt wird, ist im Allgemeinen als erstes die beigefügte Dokumentation zu Rate zu ziehen.
Bei sehr großen Datensätzen bietet es sich an, die Daten erst mit erst mit einem Programm zu verarbeiten, das komplexe Suchabfragen und Datenbearbeitung für große Datenbanken beherrscht. Dies tun zum Beispiel die Programme MS Access und SQLite, die die Programmiersprache SQL benutzen. Der Wikipedia Artikel bietet einen guten Überblick über die einfachen Befehle, die sehr mächtige Datenabfragen erlauben. Eine Vielzahl von weiteren Tutorials ist im Internet frei verfügbar.