Sie zeigen eine alte Version dieser Seite an. Zeigen Sie die aktuelle Version an.

Unterschiede anzeigen Seitenhistorie anzeigen

« Vorherige Version anzeigen Version 5 Nächste Version anzeigen »

Hier sollte eine kurze Zusammenfassung und Einleitung des Abschnittes sein. Diese Seite dient als Vorlage für einen Artikel im Wiki und kann entsprechend angepasst werden.

Inhaltsverzeichnis

Ursachen für die Annahmeverletzung

Der wahre Zusammenhang zwischen der abhängigen Variable \(y_{i}\), und den unabhängigen Variablen \(x_{1, i}, x_{2, i}, ..., x_{K-1, i}\),  ist linear. Die Nicht-Linearität könnte aus folgenden Gründen auftreten:

  1. Multiplikativer Zusammenhang zwischen der abhängigen Variable und den unabhängigen Variablen
  2. Steigender/sinkender Marginaleffekt
  3. Sonstiger nicht-linearer Zusammenhang sowie quadratische Form, kubische Form, Inverse, etc.  

Überprüfung der Linearität und Konsequenz der Annahmeverletzung

Im Fall einer einfachen linearen Regression kann die Linearität durch ein Streudiagramm der abhängigen Variable gegen die unabhängige Variable überprüft werden. In einem multiplen linearen Regressionsmodell ist dies schwieriger. Es bietet sich deswegen an, die abhängige Variable gegen alle unabhängigen Variablen einzeln in je einem Streudiagramm darzustellen (Schlittgen 2013). Der Zusammenhang der Variablen, der von dem Streudiagramm angezeigt wird, sollte approximativ linear sein. Die Konsequenz der Annahmeverletzung ist, dass die geschätzten \(\beta\)-Schätzer und Standardabweichungen verzerrt sind.

Beispiel 1: Verletzung der Linearitätsannahme

Die Nettomiete pro Quadratmeter 2003 in München wird mit einer Variable Wohnfläche erklärt. Die abhängige Variable \(y_i\) ist die Nettomiete pro Quadratmeter \(\texttt{nmqm}_i\) und die unabhängige Variable \(x_i\) ist die Wohnfläche \(\texttt{wfl}_i\).

Ein Streudiagramm der Variablen \(\texttt{nmqm}_i\) gegen \(\texttt{wfl}_i\):

Die Nettomiete pro Quadratmeter wird durch Nettomiete/Wohnfläche berechnet. Hier liegt ein nicht-linearer Zusammenhang zwischen Nettomiete pro Quadratmeter und Wohnfläche vor. Dieser nicht-linearer Zusammenhang wird auch in dem Streudiagramm deutlich. 

Die rote Linie zeigt die lineare Beziehung der zwei Variablen. Die gestrichelte Kurve ist eine Glättungskurve (Smooth line). Die Glättungskurve weicht stark von der linearen Beziehung ab. Somit kann man erkennen, dass hier eine Annahmeverletzung der Linearität vorliegt.

Korrektur der Annahmeverletzung

Korrektur 1: Transformation des Regressors

  • Logarithmische Transformation

    Die logarithmische Transformation ist aus mehreren Gründen nützlich. Erstens, wenn die abhängige Variable und die unabhängigen Variablen mit einer multiplikativen Form zusammemhängen, kann diese Beziehung durch die logarithmische Transformation linearisiert werden. Zweitens, die logarithmische Transformation könnte die Schiefe und Heteroskedastizität in der Verteilung der abhängigen Variable reduzieren (Heij et al. 2004).

    Beispiel 2: \(y_i = \alpha_1 x^{\alpha_2}_i \epsilon_i\) (Heij et al. 2004)

    Die abhängige Variable \(y_i\) hat einen multiplikativen Zusammenhang mit der unabhängige Variable \(x_i\): \(y_i = \alpha_1 x^{\alpha_2}_i  e^{\epsilon_i}\). In diesem Fall kann die Beziehung durch die logarithmische Transformation linearisiert werden. Wenn die beiden Seiten logarithmiert werden, wird die Gleichung linear:  \(\log y_i = \log{\alpha_1} + \alpha_2 \log{x_i} + \epsilon_i\).

  • Power-Transformation

    Wenn die nichtlineare Beziehung zwischen der abhängigen Variable und einer unabhängigen Variable durch eine Transformation der unabhängigen Variable in eine lineare Beziehung umgewandelt wird, kann die Annahmeverletzung korrigiert werden. Durch die Wahl des Exponenten (\(\lambda\)) kann die nicht-lineare Beziehung linearisiert werden. Die folgende Tabelle (Schlittgen 2009) dient als Übersicht über wichtige Werte der Exponenten \(\lambda\):

    \(\lambda\)Transformierte Werte \(x^{\lambda}\)Auswahl der Transformation
    3\(x^3\)


    Wenn mit wachsenden \(X\)-Werten die Änderungen der \(Y\)-Werte stärker werden.

    2,5\(x^{2,5}\)
    2\(x^{2}\)
    1,5\(x^{1,5}\)
    1\(x\)-
    0,5\(\sqrt{x}\)

    Wenn mit wachsenden \(X\)-Werten die Änderungen der \(Y\)-Werte schwächer werden.

    0\(\ln{x}\)
    -0,5\(\frac{1}{\sqrt{x}}\)
    -1\(\frac{1}{x}\)

    Außerdem ist die Box-Cox-Transformation, als auch die Power-Transformation, auch für die Linearisierung geeignet (Schlittgen 2009).

    Beispiel 3: Korrektur der Nichtlinearität durch die Transformation

    Die Nettomiete pro Quadratmeter 2003 in München wird mit einer Variable Wohnfläche erklärt. Die abhängige Variable \(y_i\) ist die Nettomiete pro Quadratmeter \(\texttt{nmqm}_i\) und die unabhängige Variable \(x_i\) ist die Wohnfläche \(\texttt{wfl}_i\).

    Die abhängige Variable, Nettomiete pro Quadratmeter, ist die Nettomiete geteilt durch die Wohnfläche:  \(\texttt{nmqm}_i\) = \(\texttt{Miete}_i\) / \(\texttt{wfl}_i\). Das heißt: die Variable \(\texttt{nmqm}_i\) hat zwar eine nichtlineare Beziehung mit der Variable  \(\texttt{wfl}_i\), aber eine lineare Beziehung mit der Inverse der Variable \(\texttt{wfl}_i, \texttt{wflinvers}_i\). Durch die Transformation der Variable \(\texttt{wfl}_i\), könnte die Annahmeverletzung korrigiert werden. 


Korrektur 2: Aufnahme zusätzlicher Potenzen des Regressors

Wenn die abhängige Variable nichtlinear von einer unabhängigen Variable abhängt, so kann durch die Aufnahme zusätzlicher Potenzen von der unabhängigen Variable in das Modell eine zufriedenstellende Erklärung, also ein linearer Zusammenhang, erreicht werden (Schlittgen 2013).

Beispiel 4: Korrektur der Nichtlinearität durch die Aufnahme zusätzlicher Potenzen

Das Monatsbruttoeinkommen wird durch die Berufserfahrung erklärt. Die abhängige Variable \(y_i\) ist das Monatsbruttoeinkommen \(\texttt{lohn}_i\) und die unabhängige Variable \(x_i\) ist die Berufserfahrung \(\texttt{erfahrung}_i\).

Ein Streudiagramm der Variablen  \(\texttt{lohn}_i\) gegen \(\texttt{erfahrung}_i\):

Zwischen Monatsbruttoeinkommen und der Berufserfahrung liegt schon ein positiver Zusammenhang vor, der allerdings nicht linear ist. Mit steigender Berufserfahrung sinkt die marginale Veränderung des Monatsbruttoeinkommens. Durch die Aufnahme der quadrierten Variable \(\texttt{erfahrung}_i\) kann dieser sinkende Marginaleffekt linearisiert werden.

Alternative: Nichtlineare Regression

Wenn keine Möglichkeit besteht, den nicht-linearen Zusammenhang zu linearisieren, kann eine nichtlineare Regression durchgeführt werden (Hübler 2005). Ein nichtlineares Regressionsmodell setzt voraus, dass die Regressoren mit der abhängigen Variable nicht-linear zusammenhängen:

\(y_i \sim f(x_{i, 1}, ..., x_{i, K-1}, \beta_0, ..., \beta_{K-1})\), wobei die Funktion \(f\) nicht-linear für die Komponenten der \(\beta\)-Parameter ist, aber ansonsten die Form der Funktion unbekannt ist. 













Glättungskurve

Die rote Glättungskurve stellt einen Spline dar.






















Bildergalerie



  • Keine Stichwörter