Inhaltsverzeichnis

Ursachen für die Annahmeverletzung

Der wahre Zusammenhang zwischen der abhängigen Variable \(y_{i}\) und den unabhängigen Variablen \(x_{1, i}, x_{2, i}, ..., x_{K-1, i}\) muss linear sein. Nicht-Linearität kann aus folgenden Gründen auftreten:

  1. Multiplikativer Zusammenhang zwischen der abhängigen Variable und den unabhängigen Variablen
  2. Sonstiger nicht-linearer Zusammenhang, wie quadratische Form, kubische Form, Inverse, etc.  



Überprüfung der Linearität und Konsequenz der Annahmeverletzung

Zunächst sollte untersucht werden, ob zwischen den metrischen unabhängigen Variablen und der abhängigen Variable überhaupt ein linearer Zusammenhang besteht. Dies lässt sich sehr gut grafisch anhand von Streudiagrammen überprüfen. Der Zusammenhang der Variablen, der von dem Streudiagramm angezeigt wird, sollte approximativ linear sein. Die Konsequenz der Annahmeverletzung ist, dass die geschätzten \(\beta\)-Schätzer den Zusammenhang zwischen abhängiger und unabhängiger Variable nicht darstellen können und die Standardabweichungen verzerrt sind.


                                           

Es ist sehr hilfreich, sich die jeweiligen Streudiagramme anzuschauen, da der Korrelationskoeffizient bei extremen Ausreißern oder einem nichtlinearen Zusammenhang zwischen zwei Variablen irreführende Werte annimmt. Das Plotten der Daten vor dem Berechnen eines Korrelationskoeffizienten ermöglicht, die lineare Beziehung zu überprüfen und mögliche Ausreißer zu identifizieren. Der Fall (A) zeigt einen starken linearen Zusammenhang (= steigende Gerade). Fall (B) hingegen verbildlicht einen Fall, in dem ein linearer Zusammenhang als Annahme unpassend ist. Fall (C) veranschaulicht ein Beispiel, in dem alle bis auf eine Observation den gleichen \(X_i\)-Wert aufweisen. Der eine Ausreißer sorgt dafür, dass ein positiver Zusammenhang angezeigt wird, obwohl die anderen Wertepaare keinen Zusammenhang zwischen den Variablen anzeigen. (D) zeigt ein Beispiel, in dem kein Zusammmenhang zwischen den Variablen zu erkennen ist und die Annahme eines linearen Zusammenhangs nicht sinnvoll erscheint.

Eine andere Möglichkeit zur Überprüfung des linearen Zusammenhangs ist die Benutzung von Partial Residual Plots. Diese werden verwendet, wenn es mehr als eine unabhängige Variable gibt. Gewöhnliche Streudiagramme bilden immer den Zusammenhang zweier metrischer Variablen ab, ohne dass der Einfluss anderer sich im Modell befindlicher Variablen beachtet wird. Bei Partial Residual Plots wird also das Verhältnis zwischen einer unabhängigen und der abhängigen Variable unter Berücksichtigung der anderen im Modell enthaltenen Kovariaten abgebildet. Wie im Streudiagramm wird auf der Abszisse die unabhängige Variable, auf der Ordinate hingegen die sogenannte Komponente zuzüglich der Residuen aus dem geschätzen Modell abgetragen. Die Komponente entspricht \(\hat{\beta}_{i}\cdot X_{i}\), berücksichtigt also durch den geschätzten Beta-Wert der i-ten Variable den Einfluss der anderen Kovariaten im Modell. 

Beispiel 1: Verletzung der Linearitätsannahme

Der Anteil an Schülern einer Schule, die Anspruch auf ein subventioniertes Mittagessen haben wird mit dem Durchschnittseinkommen des Schuldistrikts erklärt. Die Daten stammen aus einem Datensatz über die Testergebnisse und weitere Merkmale kalifornischer Schulen im Jahr 1999.

Ein Streudiagramm legt nahe, dass es einen Zusammenhang zwischen den beiden Variablen gibt:

Hier liegt ein nicht-linearer Zusammenhang zwischen den beiden Variablen vor. Dieser nicht-lineare Zusammenhang wird im Streudiagramm deutlich. 

Die rote Linie zeigt die Regressionsgerade der linearen Regression mit Durchnittseinkommen als unabhängiger Variable. Die blaue Kurve ist die Gerade einer lokalen gewichteten polynomialen Regression (LOWESS, siehe Infobox), die Abweichungen von der linearen Form erlaubt. Man kann erkennen, dass die Annahme der Linearität verletzt ist.



Code R

Linearität.R

Code Stata

Linearität.do

Code SPSS

Linearität.sps

Code SAS

Linearität.sas

Daten als CSV-Datei

Caschool.csv

LOWESS Regression

LOWESS ist ein nicht-parametrisches, lokales Regressionsverfahren, welches viele einzelne Regressionen für Untergruppen der Daten berechnet und einen geglätteten Zusammenhang darstellen kann. Es ist deshalb gut geeignet, um einen Eindruck über den funktionalen Zusammenhang zwischen zwei Variablen zu bekommen.

Korrektur der Annahmeverletzung

Korrektur 1: Transformation des Regressors

  • Logarithmische Transformation

    Die logarithmische Transformation ist aus mehreren Gründen nützlich. Erstens kann eine multiplikative Beziehung zwischen abhängiger und unabhängiger Variable durch die logarithmische Transformation linearisiert werden (siehe Beispiel 2). Zweitens kann die logarithmische Transformation die Schiefe und Heteroskedastizität (siehe Annahmen 3 und 6) in der Verteilung der abhängigen Variable reduzieren (Heij et al. 2004).

    Beispiel 2: \(y_i = \alpha_1 x^{\alpha_2}_i \epsilon_i\) (Heij et al. 2004)

    Die abhängige Variable \(y_i\) hat einen multiplikativen Zusammenhang mit der unabhängige Variable \(x_i\): \(y_i = \alpha_1 x^{\alpha_2}_i  e^{\epsilon_i}\). In diesem Fall kann die Beziehung durch die logarithmische Transformation linearisiert werden. Wenn die beiden Seiten logarithmiert werden, wird die Gleichung linear:  \(\log y_i = \log{\alpha_1} + \alpha_2 \log{x_i} + \epsilon_i\).

    Beispiel 3: Korrektur der Nichtlinearität durch Transformation

    Bei den Daten aus dem obigen graphischen Beispiel wird die Variable Durchschnittseinkommen logarithmiert um die Annahmenverletzung zu korrigieren. Die Gerade der linearen und der polynomialen Regression liegen nicht übereinander, aber es ist eine wesentliche Verbesserung erkennbar. Mit empirischen (nicht-simulierten) Daten einen perfekten linearen Zusammenhang zu erreichen ist oft nicht realistisch, aber ausreichende Annäherungen sind möglich.

  • Power-Transformation

    Wenn die nichtlineare Beziehung zwischen der abhängigen Variable und einer unabhängigen Variable durch eine Transformation der unabhängigen Variable in eine lineare Beziehung umgewandelt wird, kann die Annahmeverletzung korrigiert werden. Durch die Wahl der Potenz (\(\lambda\)) kann die nicht-lineare Beziehung linearisiert werden. Die folgende Tabelle (Schlittgen 2009) dient als Übersicht über wichtige Werte der Potenzen \(\lambda\):

    \(\lambda\)Transformierte Werte \(x^{\lambda}\)Auswahl der Transformation
    3\(x^3\)


    Wenn mit wachsenden \(X\)-Werten die Änderungen der \(Y\)-Werte stärker werden.

    2,5\(x^{2,5}\)
    2\(x^{2}\)
    1,5\(x^{1,5}\)
    1\(x\)-
    0,5\(\sqrt{x}\)

    Wenn mit wachsenden \(X\)-Werten die Änderungen der \(Y\)-Werte schwächer werden.

    0\(\ln{x}\)
    -0,5\(\frac{1}{\sqrt{x}}\)
    -1\(\frac{1}{x}\)

    Außerdem ist u.a. auch die Box-Cox-Transformation eine geeignete Transformation für die Linearisierung (Schlittgen 2009).

Korrektur 2: Aufnahme zusätzlicher Potenzen des Regressors

Wenn die abhängige Variable nichtlinear von einer unabhängigen Variable abhängt, so kann durch die Aufnahme von Potenzen der unabhängigen Variable in das Modell ein linearer Zusammenhang, erreicht werden (Schlittgen 2013). Durch die Aufnahme von quadrierten Variablen können z.B. sinkende Marginaleffekt linearisiert werden.


Alternative: Nichtlineare Regression

Wenn keine Möglichkeit besteht, den nicht-linearen Zusammenhang zu linearisieren, kann eine nichtlineare Regression durchgeführt werden (Hübler 2005). Ein nichtlineares Regressionsmodell setzt voraus, dass die Regressoren mit der abhängigen Variable nicht-linear zusammenhängen:

\(y_i \sim f(x_{i, 1}, ..., x_{i, p}, \beta_0, ..., \beta_{p})\), wobei die Funktion \(f\) nicht-linear für die Komponenten der \(\beta\)-Parameter ist, aber die Form der Funktion ansonsten unbekannt ist. 


Literatur

Heij, Christian, de Boer, Paul, Franses, Philip Hans, Teun Kloek und Herman K. van Dijk. 2004. Econometric Methods with Applications in Business and Economics. Oxford: Oxford University Press.

Hübler, Olaf. 2005. Einführung in die empirische Wirtschaftsforschung. München: Oldenbourg.

Schlittgen, Rainer. 2009. Multivariate Statistik. München: Oldenbourg.

Schlittgen, Rainer. 2013. Regressionsanalysen mit R. München: Oldenbourg. 

Beispieldaten: R-Package Ecdat: Data Sets for Econometrics, Version 0.3; https://CRAN.R-project.org/package=Ecdat


  • Keine Stichwörter