Sie zeigen eine alte Version dieser Seite an. Zeigen Sie die aktuelle Version an.

Unterschiede anzeigen Seitenhistorie anzeigen

« Vorherige Version anzeigen Version 5 Nächste Version anzeigen »

Inhaltsverzeichnis

Ursache für die Annahmeverletzung

Die Störgröße ist normal-verteilt für alle \(i=1, ..., N\). Die Normalverteilung der Störgröße ist nicht für die Schätzung vorausgesetzt, sondern für die Hypothesentests wie zum Beispiel t-Test und F-Test. Nicht-Normalverteilung könnte entstehen aus folgenden Gründen:

  1. Viele Extremwerte im Datensatz
    Eine schiefe Verteilung könnte durch Extremwerte entstehen.
  2. Mangel an Daten
    Die Verteilung könnte wegen eines Mangels an Daten diskret aussehen. 
  3. Werte an 0 oder an einer natürlichen Grenze
    Wenn mehrere Werte nah an 0 liegen oder an einer natürlichen Grenze, könnte die Verteilung schief sein. 
  4. Andere Verteilung der abhängigen Variable wie Poissonverteilung, Binomialverteilung, etc. 

Überprüfung der Annahme und Konsequenz der Annahmeverletzung

Wenn die Normalverteilungsannahme verletzt ist, sind die Schätzer noch unverzerrt und konsistent, aber die Hypothesentests basierend auf Normalverteilung wie t-Test und F-Test sind nicht mehr sinnvoll interpretierbar.

Überprüfung 1: QQ-Plot

Die Normalverteilung der Störgröße kann durch das QQ-Plot der Residuen überprüft werden, da die Residuen die Störgrößen darstellen. Wenn die Residuen klar auf der QQ-Linie liegen, ist die Störgröße normalverteilt. Wenn die Annahmeverletzung aus dem QQ-Plot nicht klar ist, kann man durch unterschiedliche Tests überprüfen, ob die Störgröße normalverteilt ist. 

Graph (A) kann als "idealer" Q-Q Plot gesehen werden, wobei die Punkte sehr nahe an oder sogar auf der Gerade liegen. Im Fall (B) hat die Verteilung der Residuen dickeren Enden als die Normalverteilung. Der Graph (C) zeigt das typische Verhalten einer Verteilung mit dünneren Enden als bei einer Normalverteilung (S-Grafik). Grafik (D) zeigt eine Verteilung, die im oberen Ende größere Werte aufweißt als die Normalverteilung und (E) ist die Abbildung einer linksschiefen Verteilung.


.         

Beispiel 6: Die normalverteilte Störgröße

Die Nettomiete pro Quadratmeter 2003 in München wird mit der Inverse der Wohnfläche erklärt. Die Residuen liegen fast alle klar auf der QQ-Linie, somit sind die Residuen normalverteilt.

Außerdem kann, um die Normalitätsannahme grafisch zu prüfen, ein Histogramm der standardisierten Residuen verwendet werden. Das Histogramm wird oft zusammen mit der Dichte der Standardnormalverteilung dargestellt. Die Form des Histogramms sollte möglichst der der Kurve entsprechen.

Überprüfung 2: Jarque-Bera-Test

Der Jarque-Bera-Test überprüft mithilfe der Schiefe und der Kurtosis einer Stichprobe, ob die Stichprobe normalverteilt ist. Wenn eine Stichprobe perfekt normalverteilt ist, hat die Stichprobe eine Schiefe gleich 0 und eine Kurtosis gleich 3. Durch den Jarque-Bera-Test können die Residuen überprüft werden, ob die Residuen normalverteilt sind. Die Nullhypothese ist: \(H_0\): Die Stichprobe (Residuen) ist normalverteilt und die Gegenhypothese, \(H_1\): Die Stichprobe (Residuen) ist nicht normalverteilt.

Teststatistik des Jarque-Bera-Tests: \(JB=\frac{N}{6} (S^2+\frac{(K-3)^2}{4}) \sim \chi^2_2\) wobei \(S\) für die Schiefe und \(K\) für die Kurtosis steht.

Die Nullhypothese kann nicht verworfen werden, wenn die Teststatistik kleiner als der kritische Wert ist. Somit sind die Residuen normalverteilt.

Es gibt auch andere Alternative-Tests, die die Normalverteilung der Störgröße überprüfen: Kolmogorov-Smirnov-Test, Shapiro-Wilk-Statistik (Hübler 2005).

Jarque-Bera-Test mit \(\textsf{R}\)

Da der p-Wert zu gering ist, kann die \(H_0\) verworfen werden. Somit sind die Residuen normalverteilt.


Korrektur der Annahmeverletzung

Korrektur 1: Ausschluss der Extremwerte

Wenn die Nicht-Normalverteilung wegen der Extremwerte entstanden ist, kann die Normalverteilungsannahme durch den Ausschluss der Extremwerte erfüllt werden. Bevor man die Extremwerte ausschließt muss überprüft werden, ob der Extremwert wirklich einen starken Einfluss auf die Regression hat. 

Korrektur 2: Größerer Stichprobenumfang

Die Nicht-Normalverteilung wegen eines Mangels an Daten kann korrigiert werden, indem mehrere Daten gesammelt werden. Wenn der Stichprobenumfang groß genug ist, kann dieses Problem durch den zentralen Grenzwertsatz gelöst werden.

Korrektur 3: Box-Cox-Transformation

In manchen Fällen kann die Box-Cox-Transformation die nicht-normalverteilten Daten in approximativ normalverteilte Daten transformieren (Schlittgen 2009). Durch die Wahl des Transformationsparameters (\(\lambda\)) kann die Verletzung der Normalverteilung korrigiert werden.


Alternative: Robuste Regression

Um die Extremwerte zu behandeln, kann die robuste Regression durchgeführt werden, statt die Extremwerte zu entfernen. Bei der robusten Schätzung gehen die Extremwerte mit weniger Gewicht in die Schätzung ein als bei der KQ-Schätzung (Heij et al. 2004). Somit sind robuste Schätzer weniger sensibler auf Ausreißer.














Bildergalerie



  • Keine Stichwörter