Versionen im Vergleich

Schlüssel

  • Diese Zeile wurde hinzugefügt.
  • Diese Zeile wurde entfernt.
  • Formatierung wurde geändert.

Das Statistikpaket ist der Werkzeugkasten des empirisch arbeitenden Wissenschaftlers. Kein empirisches Resultat ohne die Benutzung einer geeigneten Auswertungssoftware! Aber welches Paket ist das richtige, das für den Forscher passende? Um beim Beispiel des Werkzeugkastens zu bleiben: Wer einen Hammer zum Einschlagen eines Nagels braucht, wird mit einer vollelektronischen Schlag- und Bohrmaschine unzufrieden sein. Umgekehrt sind nicht alle Handwerksarbeiten mit einem Hammer zu bewältigen.

 

Die Auswahl des statistischen Werkzeugs – hier der Software – kann unter den folgenden Gesichtspunkten vorgenommen Hier sollte eine kurze Zusammenfassung und Leitung des Abschnittes sein. Diese Seite dient als Vorlage für einen Artikel im Wiki und kann entsprechend angepasst werden.

Inhaltsverzeichnis

Inhalt
maxLevel2
excludeInhaltsverzeichnis|Bildergalerie

Abschnitt 1

Überschriften, die ins Inhaltsverzeichnis aufgenommen werden sollen, müssen die Größen Überschrift 1 (Kapitel) und Überschrift 2 (Unterkapitel). Es können natürlich auch weitere Untergliederungen vorgenommen werden, allerdings tauchen diese nicht im Inhaltsverzeichnis auf. Jedes Kapitel (Überschrift 1) bekommt einen eigenen Bereich.

Das Format des zu analysierenden Datensatzes

Im Prinzip ist der Aufbau eines Datensatzes in jedem Programmpaket gleich: Die Spalten stehen für die Variablen und die Zeilen stehen für die einzelnen Beobachtungen. Aber die Codierung der Einträge variiert von Programmpaket zu Programmpaket. Dies gilt schon für unsere alltäglichen Zahlendarstellungen ohne Softwareeinsatz! In Deutschland ist es üblich, das Komma für die Nachdezimalstellen zu benutzen. International wird jedoch der Dezimalpunkt benutzt. Da alle Statistikpakete international ausgelegt sind, sollte man immer mit Dezimalpunkten arbeiten.

Rechnerintern gibt es aber eine Reihe weiterer Zahlencodierungen, die vom ASCII-Format abweichen. Dies merkt man sofort, wenn man einen Datensatz, der in einem speziellen Statistikpaket erzeugt wurde, mit einem ganz normalen Editor öffnet: Man wird keinen Datensatz erkennen!

Das jeweilige Datenformat erkennt man jeweils an der Extension des Datensatzes. So steht beispielsweise die Extension ''.sav'' für ein SPSS-Datenfile, während ''.xls'' für ein Excel-File steht. Gebräuchliche Extensionen und deren Zuordnung zu Statistikpaketen sind in Tabelle zu finden.

 

PaketExtension

JMP

R

SAS

 

SPSS

STATA

.jmp

.csv , .txt oder .rdata

.sd2 (bis Version 6)

.sas7bdat (ab Version 7)

.sav

.dta

 

Früher bedeutete die Vergabe eines Datenformats, dass der Datensatz nur mit dem Paket analysiert werden konnte, das das jeweilige Datenformat erzeugt hat. Dies hat sich glücklicherweise geändert. Die meisten Statistikpakete sind heutzutage in der Lage, die gängigen Datenformate der anderen Programme zu verarbeiten. Eine List der akzeptierten Formate erhält man über ein entsprechendes Menü während des Einlesens der Daten. Damit herrscht heutzutage eine weitgehende Unabhängigkeit von Datenformat und Analysepaket. In schwierigen Fällen kann man zu einer Datenkonvertierungssoftware greifen, etwa zu STATTRANSFER.

Allerdings ist Vorsicht angebracht und man sollte sich vor der Analyse davon überzeugen, ob der Datensatz im Originalpaket genauso aussieht wie im Analysepaket. Da alle Statistikpakete Excel-Files akzeptieren (allerdings nicht in jeder Excel-Version!) und dieser Übergang häufig gewählt wird, sind hier die folgenden Hinweise hilfreich:

  • Excel enthält in der ersten Zeile häufig die Variablennamen. Dies muss man einem Statistikpaket mitteilen, da sonst die erste Zueile als Datenzeile interpretiert wird.
  • Excel kennt keine Unterscheidung in numerische und nicht-numerische Variablen. Für alle Statistikpakete ist dies jedoch ein wesentlicher Unterschied. Die Entscheidung über den Datentyp der Variablen fällt beim Lesen der ersten Zeile!
  • Excel kennt keine Konvention über erlaubte bzw. nicht-erlaubte Zei\-chen. Umlaute und Sonderzeichen sind hier als Eintrag durchaus erlaubt. Dies gilt nicht für Statistikpakete!
  • Man beachte, dass die Nutzung von Dezimalpunkt bzw. Komma häufig über das Windows-Betriebssystem geregelt wird.

Das Niveau des eigenen Statistikverständnisses

Das Vorverständnis der statistischen Methodik variiert sehr stark unter den Nutzern von Auswertungssoftware. Für manche Nutzer bleibt die formelhafte Darstellung eines Schätzverfahrens ein Gräuel, das sofort übersprungen wird, bis man endlich ein aussagekräftiges Beispiel gefunden hat. Umgekehrt ist für einen Anwender, der die Formelsprache der Lehrbücher nachvollziehen kann, ein Open-Source Code in einer Matrix-Sprache leicht und vor allem präzise nachvollziehbar, da hier die Formeln des Lehrbuchs quasi eins zu eins umgesetzt werden.

Die Statistik-Programme präsentieren sich sehr unterschiedlich. Als ''einfach'' gelten Programme mit einer sogenannten Klick-Oberfläche. Der prominenteste Vertreter dieser Gattung ist SPSS. Ein moderner Vertreter ist JMP, das von SAS vertrieben wird. Eine Klick-Oberfläche, die auf  basiert, ist der R-Commander. Diese Programme sind ähnlich strukturiert: Im ersten Teil wird ein Datensatz eingegeben, im zweiten Teil werden Teilmengen des Datensatzes definiert, für die im dritten Teil eine Analyse durchgeführt wird. Für den Analyseteil werden meistens die folgenden Ebenen dargeboten:

  • Univariate Analysen
  • Multivariate Analysen
  • Regressionsanalysen

Abbildung \ref{Fig_Drag_and_Drop} zeigt das Auswahlmenue nach dem Einlesen eines Datensatzes, hier des Titanic-Daatensatzes, im Programmpaket JMP.

Über ein Kontextmenü mit der rechten Maustaste kann man dann die gewünschten Parameter des jeweiligen Verfahrens setzen.

Hinsichtlich des angebotenen Analyseumfangs, der Menüführung und der Parameteroptionen unterscheiden sich die Pakete erheblich. Allen Klickprogrammen ist aber gemeinsam, dass sie auf eine formale Beschreibung der Berechnungsverfahren weitgehend verzichten. Die Dokumentation orientiert sich an der Nutzung von statistischen Schlagwörtern, die der Anwender kennen muss, sowie an Beispielen, die der Anwender für seine Zwecke entsprechend verändern kann.

In SPSS und JMP erzeugt der Nutzer über eine Skriptsprache ein Protokoll seiner Auswertung, das abgespeichert werden kann und so die Reproduzierbarkeit der Analyse gewährleistet. Dies ist ein essentielles Kriterium für wissenschaftliches Arbeiten! Wenn man die Datensätze mit einem Skript fest verknüpft, erhält man eine beispielhafte Anwendung, die man für seine eigene Analyse geeignet modifizieren kann. JMP enthält viele Datensätze mit beispielhaften Auswertungsskripten.

Neben diesen Paketen mit einer Klickoberfläche gibt es Programme, die sich einer Kontrollsprache bedienen. Hierbei wird in einem Editor ein Programmcode geschrieben bzw. eingelesen, der dann abschnittweise zur Ausfüh\-rung gebracht wird. Die Statistikpakete unterscheiden sich hinsichtlich der Syntax erheblich! Aber wer sich einmal an eine Kontrollsprache gewöhnt hat, wird auch sehr schnell  Ähnlichkeiten feststellen. Programmpakete mit Kontrollsprache sind SAS, STATA und R. Hierbei unterscheidet SAS streng nach den logischen Ebenen ''Erzeugung eines Datensatzes'' (Data Step) und ''Auswertung eines Datensatzes'' (Procedure). Dies macht die Programme übersichtlicher, allerdings auch etwas länger. SAS und STATA sind keine Open-Source Programme. Allerdings werden die numerischen Details ausführ\-lich dokumentiert. Die SAS-Dokumentation liest sich gerade bei fortgeschrittenen Verfahren wie ein statistisches Lehrbuch.

SAS präsentiert für jede Procedure ein einführendes Beispiel (''Getting Started''), das durch weitere Beispiele ergänzt wird. Sowohl die Beispieldatensätze als auch der Quellcode können vom Nutzer kopiert und für seine eigenen Zwecke modifiziert werden, siehe Abbildung \ref{Fig_SAS_doc}

 

 

 

 Zum Umgang mit Abbildungen und Tabellen

 Format im Text

Abbildungen und Tabellen werden zentriert. Alle Abbildungen besitzen eine Bildüberschrift, die Teil der Abbildung ist. Wenn dies nicht möglich ist, dann wird entsprechend im Wiki-Editor eine zentrierte Überschrift hinzugefügt. Nach Möglichkeit sollten Bilder eine Überschrift als Eigenschaft haben.

Abweichung

 

 

 

 

 

Info
titleAbweichung

Abbildungen können und sollten über Infoboxen verfügen. Die Infobox besitzt den selben Titel wie die Abbildung. In dieser Box können Quellenangaben und weitere Informationen enthalten sein.

Unterhalb der Infobox können und sollten die Verweise zu den Dateien (Daten, Skripte und dem Bild selbst) auftauchen.

Anhänge
previewfalse
uploadfalse
oldfalse
labelsabweichung

Bildergalerie

Galerie