Versionen im Vergleich

Schlüssel

  • Diese Zeile wurde hinzugefügt.
  • Diese Zeile wurde entfernt.
  • Formatierung wurde geändert.

Hier sollte eine kurze Zusammenfassung und Einleitung des Abschnittes sein. Diese Seite dient als Vorlage für einen Artikel im Wiki und kann entsprechend angepasst werden.

Inhaltsverzeichnis

Inhalt
maxLevel2
excludeInhaltsverzeichnis|Bildergalerie

Abschnitt 1

Überschriften, die ins Inhaltsverzeichnis aufgenommen werden sollen, müssen die Größen Überschrift 1 (Kapitel) und Überschrift 2 (Unterkapitel) haben. Es können natürlich auch weitere Untergliederungen vorgenommen werden, allerdings tauchen diese nicht im Inhaltsverzeichnis auf. Jedes Kapitel (Überschrift 1) bekommt einen eigenen Bereich.

Zum Umgang mit Abbildungen und Tabellen Ankertest4test4

Format im Text

Abbildungen und Tabellen werden zentriert. Alle Abbildungen besitzen eine Bildüberschrift, die Teil der Abbildung ist. Wenn dies nicht möglich ist, dann wird entsprechend im Wiki-Editor eine zentrierte Überschrift hinzugefügt. Nach Möglichkeit sollten Bilder eine Überschrift als Eigenschaft haben.

AbweichungenImage Removed

Info
titleAbweichung

Abbildungen können und sollten über Infoboxen verfügen. Die Infobox besitzt den selben Titel wie die Abbildung. In dieser Box können Quellenangaben und weitere Informationen enthalten sein.

Formeln

Formeln werden wie Latexcode geschrieben. Für eine gute Einführung siehe Wikibooks.

Eigenständig stehende Formeln werden wie folgt erzeugt.

\[y_{i}= \beta_0 + \beta _{1}x_i+ \epsilon_i,\]

wobei \(\varepsilon_i \sim \mathcal{N}(0,\sigma^2)\) eine Inline-Formel ist.



Ursache für die Annahmeverletzung

Die Residuen sind normalverteilt für alle \(i=1, ..., N\). Die Normalverteilung der Residuen ist nicht für die Schätzung der Koeffizienten vorausgesetzt, sondern für die Hypothesentests wie zum Beispiel t-Test und F-Test. Nicht-Normalverteilung könnte entstehen aus folgenden Gründen:

  1. Viele Extremwerte im Datensatz
    Eine schiefe Verteilung kann durch Extremwerte entstehen.
  2. Mangel an Daten
    Die Verteilung kann wegen eines Mangels an Daten diskret aussehen. 
  3. Werte an 0 oder an einer natürlichen Grenze
    Wenn mehrere Werte nahe an 0 liegen oder an einer natürlichen Grenze, kann die Verteilung schief sein. 
  4. Andere Verteilung der abhängigen Variable wie Poissonverteilung, Binomialverteilung, etc. 
  5. Fehlspezifikation des Models

Überprüfung der Normalverteilung und Konsequenz der Annahmeverletzung

Wenn die Normalverteilungsannahme verletzt ist, sind die Schätzer noch unverzerrt und konsistent, aber die Hypothesentests, die auf der Normalverteilung basieren wie t-Test und F-Test, sind nicht mehr sinnvoll interpretierbar. Für die Analyse der p-Werte der Regressionskoeffizienten ist die Annahme der Normalverteilung der Residuen deshalb wichtig, wenn man die statistische Signifikanz der Koeffizienten überprüfen will.

Überprüfung 1: QQ-Plot

Die Normalverteilung der Residuen kann durch einen QQ-Plot der Residuen überprüft werden Wenn die Residuen im QQ-Plot klar auf einer Geraden liegen, sind sie normalverteilt. Wenn die Annahmeverletzung aus dem QQ-Plot nicht klar ist, kann man durch unterschiedliche Tests überprüfen, ob die Residuen normalverteilt sind. 

Graph (A) kann als nahezu idealer Q-Q Plot gesehen werden, wobei die Punkte fast auf der Geraden liegen oder zumindest nicht stark oder systematisch von der Geraden abweichen. Im Fall (B) hat die Verteilung der Residuen dickere Enden als die Normalverteilung. Anschaulich bedeutet dies, dass die Residuen im unteren Teil der Verteilung im Vergleich zur Normalverteilung stärker nach unten schwanken. Im oberen Teil der Verteilung ist es gerade umgekehrt: Hier schwanken die Residuen im Vergleich zur Normalverteilung stärker nach oben. Der Graph (C) zeigt das typische Verhalten einer Verteilung mit dünneren Enden als bei einer Normalverteilung (S-Grafik). Die Verteilung der Residuen ist also stärker als bei der Normalverteilung um dien Erwartungswert konzentriert. Grafik (D) zeigt eine Verteilung, die im oberen Ende größere Werte aufweist als die Normalverteilung und (E) ist die Abbildung einer linksschiefen Verteilung.


.         Image Added

Beispiel 11:  Nicht-normalverteilte Residuen

In dem geschätzten Regressionsmodell wird der Stundenlohn von Personen durch die Ausbildung in Jahren als unabhängige Variable erklärt (siehe Code am Rand). Der QQ-Plot liefert einen deutlichen Hinweis darauf, dass die Normalverteilungsannahme für die Residuen nicht haltbar ist, 

Image Added

Außerdem kann, um die Normalitätsannahme grafisch zu prüfen, ein Histogramm der standardisierten Residuen verwendet werden. Das Histogramm wird oft zusammen mit der Dichte der Standardnormalverteilung dargestellt. Die Form des Histogramms sollte sich möglichst mit der Kurve decken.

Überprüfung 2: Jarque-Bera-Test

Der Jarque-Bera-Test überprüft mithilfe der Schiefe und der Kurtosis einer Stichprobe, ob die Stichprobe normalverteilt ist. Wenn eine Stichprobe perfekt normalverteilt ist, hat die Stichprobe eine Schiefe gleich 0 und eine Kurtosis gleich 3. Durch den Jarque-Bera-Test kann überprüft werden, ob die Residuen normalverteilt sind. Die Nullhypothese ist: \(H_0\): Die Stichprobe (Residuen) ist normalverteilt und die Gegenhypothese, \(H_1\): Die Stichprobe ist nicht normalverteilt.

Teststatistik des Jarque-Bera-Tests: \(JB=\frac{N}{6} (S^2+\frac{(K-3)^2}{4}) \sim \chi^2_2\) wobei \(S\) für die Schiefe und \(K\) für die Kurtosis steht.

Die Nullhypothese kann nicht verworfen werden, wenn die Teststatistik kleiner als der kritische Wert ist.

Andere Tests, die die Normalverteilung der Residuen überprüfen, sind: Kolmogorov-Smirnov-Test, und die sehr häufig verwendete Shapiro-Wilk-Statistik (Hübler 2005). Im Code-Beispiel am Rand wird der Shapiro-Wilk-Test für die Residuen aus obiger Regression durchgeführt und die Nullhypothese wird verworfen.

Zu den problematischen Aspekten des Testens der Normalitätsannahme, ist der folgende Thread von stats.stackexchange.com (in englischer Sprache) eine gute Weiterführung:
Is normality testing essentially useless?

Korrektur der Annahmeverletzung

Beispiel 12: Korrigierte Annahmenverletzung

Durch Logarithmierung der abhängigen Variable "Stundenlohn" nähern sich die Residuen der theoretischen Normalverteilung an. Der Nullhypothese des Shapiro-Wilk Test auf Normalverteilung wird noch immer verworfen (siehe Code-Beispiel). In den Enden der Verteilung sind noch Abweichungen von der Normalverteilung erkennbar, allerdings ist die Verteilung für empirisch beobachtete Daten schon nahe an der Normalverteilung.

Image Added

Korrektur 1: Variablen-Transformation

In manchen Fällen kann eine Transformation der abhängigen Variable die nicht-normalverteilten Daten in approximativ normalverteilte Daten transformieren (Schlittgen 2009). Ein Überblick über häufig genutzte Transformationen findet sich im Abschnitt zur Annahme 1: Linearität (siehe Link in der Überschrift zu dem Abschnitt über Transformationen).

Korrektur 2: Ausschluss der Extremwerte

Wenn die Nicht-Normalverteilung wegen der Extremwerte entstanden ist, kann die Normalverteilungsannahme durch den Ausschluss der Extremwerte erfüllt werden. Bevor man die Extremwerte ausschließt muss überprüft werden, ob die Extremwerte wirklich einen starken Einfluss auf die Regression hat. (Siehe hierzu z. B. den Cook-Abstand).

Korrektur 3: Größerer Stichprobenumfang

Die Nicht-Normalverteilung wegen eines Mangels an Daten kann korrigiert werden, indem mehr Daten gesammelt werden. Wenn der Stichprobenumfang groß genug ist, kann das Problem der Nicht-Normalverteilung durch den zentralen Grenzwertsatz gelöst werden.



Alternative: Robuste Regression

Um das Vorliegen von Extremwerten zu berücksichtigen, kann die robuste Regression durchgeführt werden, statt die Extremwerte zu entfernen. Bei der robusten Schätzung gehen die Extremwerte mit weniger Gewicht in die Schätzung ein als bei der KQ-Schätzung (Heij et al. 2004). Somit reagieren robuste Schätzer weniger sensibel auf Ausreißer.



Code R

View file
nameNormalverteilung.R
height150

Code Stata

View file
nameNormalverteilung.do
height150

Code SPSS

View file
nameNormalverteilung.sps
height150

Code SAS

View file
nameNormalverteilung.sas
height150

Daten als CSV-Datei

View file
nameSchooling.csv
height150

Literatur

Heij, Christian, de Boer, Paul, Franses, Philip Hans, Teun Kloek und Herman K. van Dijk. 2004. Econometric Methods with Applications in Business and Economics. Oxford: Oxford University Press.

Hill, Rufus Carter, William E. Griffiths und Guay C. Lim. 2012. Principles of econometrics. Hoboken: Wiley.

Hübler, Olaf. 2005. Einführung in die empirische Wirtschaftsforschung. München: Oldenbourg.

Schlittgen, Rainer. 2009. Multivariate Statistik. München: Oldenbourg.

Beispieldaten: R-Package Ecdat: Data Sets for Econometrics, Version 0.3; https://CRAN.R-project.org/package=Ecdat

Hilfe

Es gibt eine Einführung der CeDiS für das Wiki.

Es steht auch das Markup von Confluence zur Verfügung. Siehe z.B. die Hilfe für das Wiki.

Zitieren

Quellenangaben erfolgen mittels eines Superskripts.

 Diese werden mit Hilfeder Makros "Single Cite"

und "Single Cite Short" erstellt. Siehe dazu auch die Hilfe.

Videos

Quellennachweis












Bildergalerie


Galerie