Sie zeigen eine alte Version dieser Seite an. Zeigen Sie die aktuelle Version an.

Unterschiede anzeigen Seitenhistorie anzeigen

« Vorherige Version anzeigen Version 8 Nächste Version anzeigen »

Inhaltsverzeichnis

Ursachen für die Annahmeverletzung

Der wahre Zusammenhang zwischen der abhängigen Variable \(y_{i}\), und den unabhängigen Variablen \(x_{1, i}, x_{2, i}, ..., x_{K-1, i}\),  ist linear. Die Nicht-Linearität könnte aus folgenden Gründen auftreten:

  1. Multiplikativer Zusammenhang zwischen der abhängigen Variable und den unabhängigen Variablen
  2. Steigender/sinkender Marginaleffekt
  3. Sonstiger nicht-linearer Zusammenhang sowie quadratische Form, kubische Form, Inverse, etc.  

Überprüfung der Linearität und Konsequenz der Annahmeverletzung

Zunächst sollte untersucht werden, ob zwischen den metrischen unabhängigen Variablen und der abhängigen Variable überhaupt ein linearer Zusammenhang besteht. Dies lässt sich grafisch anhand von Streudiagrammen überprüfen. Der Zusammenhang der Variablen, der von dem Streudiagramm angezeigt wird, sollte approximativ linear sein. Die Konsequenz der Annahmeverletzung ist, dass die geschätzten \(\beta\)-Schätzer und Standardabweichungen verzerrt sind.


                                           

Es ist sehr hilfreich, sich die jeweiligen Streudiagramme anzuschauen, da der Korrelationskoeffizient bei beispielsweise extremen Ausreißern oder einem nichtlinearen Zusammenhang zwischen zwei Variablen irreführende Werte annimmt. Das Plotten der Daten vor dem Berechnen eines Korrelationskoeffizienten ermöglicht, die lineare Beziehung zu überprüfen und mögliche Ausreißer zu identifizieren. Der Fall (A) zeigt starke positive Korrelation (= steigende Gerade). Fall (B) hingegen verbildlicht einen Fall, in dem ein linearer Zusammenhang als Annahme unpassend ist. Fall (C) veranschaulicht ein Beispiel, in dem alle bis auf eine Observation den gleichen \(X_i\)-Wert aufweisen. Der eine Ausreißer sorgt dafür, dass ein positiver Zusammenhang angezeigt wird, obwohl die anderen Wertepaare jegliche Beziehung zwischen den Variablen ablehnen. (D) zeigt ein Beispiel, in dem keine Korrelation zwischen den Variablen zu beobachten ist und die Annahme eines linearen Zusammenhangs nicht sinnvoll erscheint.

Eine andere Möglichkeit zur Überprüfung des linearen Zusammenhangs ist die Benutzung von Partial Residual Plots. Diese werden verwendet, falls es mehr als eine unabhängige Variable gibt. Gewöhnliche Streudiagramme bilden immer den Zusammenhang zweier metrischer Variablen ab, ohne dass der Einfluss anderer sich im Modell befindlicher Variablen beachtet wird. Bei Partial Residual Plots wird also das Verhältnis zwischen einer unabhängigen und der abhängigen Variable unter Berücksichtigung der anderen im Modell enthaltenen Kovariaten abgebildet. Wie im Streudiagramm wird auf der Abszisse die unabhängige Variable, auf der Ordinate hingegen die sogenannte Komponente zuzüglich der Residuen aus dem geschätzen Modell abgetragen. Die Komponente entspricht \(\hat{\beta}_{i}\cdot X_{i}\), berücksichtigt also durch den geschätzten Beta-Wert der i-ten Variable den Einfluss der anderen Kovariaten im Modell. 

Beispiel 1: Verletzung der Linearitätsannahme

Die Nettomiete pro Quadratmeter 2003 in München wird mit einer Variable Wohnfläche erklärt. Die abhängige Variable \(y_i\) ist die Nettomiete pro Quadratmeter \(\texttt{nmqm}_i\) und die unabhängige Variable \(x_i\) ist die Wohnfläche \(\texttt{wfl}_i\).

Ein Streudiagramm der Variablen \(\texttt{nmqm}_i\) gegen \(\texttt{wfl}_i\):

Die Nettomiete pro Quadratmeter wird durch Nettomiete/Wohnfläche berechnet. Hier liegt ein nicht-linearer Zusammenhang zwischen Nettomiete pro Quadratmeter und Wohnfläche vor. Dieser nicht-linearer Zusammenhang wird auch in dem Streudiagramm deutlich. 

Die rote Linie zeigt die lineare Beziehung der zwei Variablen. Die gestrichelte Kurve ist eine Glättungskurve (Smooth line). Die Glättungskurve weicht stark von der linearen Beziehung ab. Somit kann man erkennen, dass hier eine Annahmeverletzung der Linearität vorliegt.

Erkennen von Verletzungen dieser Annahmen

Verletzungen von unterschiedlichen Annahmen lassen sich bei grafischer Untersuchung von geschätzten Residuen entdecken. Folgener Link zeigt beispielhaft, wie die Verletzung von Linearität (curved up/down) und die Verletzung von Homoskedastizität (fan-shaped) in verschiedenen Diagrammen aussehen.

 

Korrektur der Annahmeverletzung

Korrektur 1: Transformation des Regressors

  • Logarithmische Transformation

    Die logarithmische Transformation ist aus mehreren Gründen nützlich. Erstens, wenn die abhängige Variable und die unabhängigen Variablen mit einer multiplikativen Form zusammemhängen, kann diese Beziehung durch die logarithmische Transformation linearisiert werden. Zweitens, die logarithmische Transformation könnte die Schiefe und Heteroskedastizität in der Verteilung der abhängigen Variable reduzieren (Heij et al. 2004).

    Beispiel 2: \(y_i = \alpha_1 x^{\alpha_2}_i \epsilon_i\) (Heij et al. 2004)

    Die abhängige Variable \(y_i\) hat einen multiplikativen Zusammenhang mit der unabhängige Variable \(x_i\): \(y_i = \alpha_1 x^{\alpha_2}_i  e^{\epsilon_i}\). In diesem Fall kann die Beziehung durch die logarithmische Transformation linearisiert werden. Wenn die beiden Seiten logarithmiert werden, wird die Gleichung linear:  \(\log y_i = \log{\alpha_1} + \alpha_2 \log{x_i} + \epsilon_i\).

  • Power-Transformation

    Wenn die nichtlineare Beziehung zwischen der abhängigen Variable und einer unabhängigen Variable durch eine Transformation der unabhängigen Variable in eine lineare Beziehung umgewandelt wird, kann die Annahmeverletzung korrigiert werden. Durch die Wahl des Exponenten (\(\lambda\)) kann die nicht-lineare Beziehung linearisiert werden. Die folgende Tabelle (Schlittgen 2009) dient als Übersicht über wichtige Werte der Exponenten \(\lambda\):

    \(\lambda\)Transformierte Werte \(x^{\lambda}\)Auswahl der Transformation
    3\(x^3\)


    Wenn mit wachsenden \(X\)-Werten die Änderungen der \(Y\)-Werte stärker werden.

    2,5\(x^{2,5}\)
    2\(x^{2}\)
    1,5\(x^{1,5}\)
    1\(x\)-
    0,5\(\sqrt{x}\)

    Wenn mit wachsenden \(X\)-Werten die Änderungen der \(Y\)-Werte schwächer werden.

    0\(\ln{x}\)
    -0,5\(\frac{1}{\sqrt{x}}\)
    -1\(\frac{1}{x}\)

    Außerdem ist u.a. auch die Box-Cox-Transformation eine geiegnete Transformation für die Linearisierung (Schlittgen 2009).

    Beispiel 3: Korrektur der Nichtlinearität durch die Transformation

    Die Nettomiete pro Quadratmeter 2003 in München wird mit einer Variable Wohnfläche erklärt. Die abhängige Variable \(y_i\) ist die Nettomiete pro Quadratmeter \(\texttt{nmqm}_i\) und die unabhängige Variable \(x_i\) ist die Wohnfläche \(\texttt{wfl}_i\).

    Die abhängige Variable, Nettomiete pro Quadratmeter, ist die Nettomiete geteilt durch die Wohnfläche:  \(\texttt{nmqm}_i\) = \(\texttt{Miete}_i\) / \(\texttt{wfl}_i\). Das heißt: die Variable \(\texttt{nmqm}_i\) hat zwar eine nichtlineare Beziehung mit der Variable  \(\texttt{wfl}_i\), aber eine lineare Beziehung mit der Inverse der Variable \(\texttt{wfl}_i, \texttt{wflinvers}_i\). Durch die Transformation der Variable \(\texttt{wfl}_i\), könnte die Annahmeverletzung korrigiert werden. 


Korrektur 2: Aufnahme zusätzlicher Potenzen des Regressors

Wenn die abhängige Variable nichtlinear von einer unabhängigen Variable abhängt, so kann durch die Aufnahme zusätzlicher Potenzen von der unabhängigen Variable in das Modell eine zufriedenstellende Erklärung, also ein linearer Zusammenhang, erreicht werden (Schlittgen 2013).

Beispiel 4: Korrektur der Nichtlinearität durch die Aufnahme zusätzlicher Potenzen

Das Monatsbruttoeinkommen wird durch die Berufserfahrung erklärt. Die abhängige Variable \(y_i\) ist das Monatsbruttoeinkommen \(\texttt{lohn}_i\) und die unabhängige Variable \(x_i\) ist die Berufserfahrung \(\texttt{erfahrung}_i\).

Ein Streudiagramm der Variablen  \(\texttt{lohn}_i\) gegen \(\texttt{erfahrung}_i\):

Zwischen Monatsbruttoeinkommen und der Berufserfahrung liegt schon ein positiver Zusammenhang vor, der allerdings nicht linear ist. Mit steigender Berufserfahrung sinkt die marginale Veränderung des Monatsbruttoeinkommens. Durch die Aufnahme der quadrierten Variable \(\texttt{erfahrung}_i\) kann dieser sinkende Marginaleffekt linearisiert werden.

Alternative: Nichtlineare Regression

Wenn keine Möglichkeit besteht, den nicht-linearen Zusammenhang zu linearisieren, kann eine nichtlineare Regression durchgeführt werden (Hübler 2005). Ein nichtlineares Regressionsmodell setzt voraus, dass die Regressoren mit der abhängigen Variable nicht-linear zusammenhängen:

\(y_i \sim f(x_{i, 1}, ..., x_{i, K-1}, \beta_0, ..., \beta_{K-1})\), wobei die Funktion \(f\) nicht-linear für die Komponenten der \(\beta\)-Parameter ist, aber ansonsten die Form der Funktion unbekannt ist. 













Glättungskurve

Die rote Glättungskurve repräsentiert die Modellierung des Zusammenhangs durch sogenannte Splines.






















Bildergalerie



  • Keine Stichwörter