Versionen im Vergleich

Schlüssel

  • Diese Zeile wurde hinzugefügt.
  • Diese Zeile wurde entfernt.
  • Formatierung wurde geändert.

Inhaltsverzeichnis

Inhalt
maxLevel2
excludeInhaltsverzeichnis|Bildergalerie



Ursachen für die Annahmeverletzung

Der wahre Zusammenhang zwischen der abhängigen Variable \(y_{i}\) und den unabhängigen Variablen \(x_{1, i}, x_{2, i}, ..., x_{K-1, i}\) muss linear sein. Nicht-Linearität kann aus folgenden Gründen auftreten:

  1. Multiplikativer Zusammenhang zwischen der abhängigen Variable und den unabhängigen Variablen
  2. Steigender/sinkender Marginaleffekt
  3. Sonstiger nicht-linearer Zusammenhang, wie quadratische Form, kubische Form, Inverse, etc.  



Überprüfung der Linearität und Konsequenz der Annahmeverletzung

Zunächst sollte untersucht werden, ob zwischen den metrischen unabhängigen Variablen und der abhängigen Variable überhaupt ein linearer Zusammenhang besteht. Dies lässt sich sehr gut grafisch anhand von Streudiagrammen überprüfen. Der Zusammenhang der Variablen, der von dem Streudiagramm angezeigt wird, sollte approximativ linear sein. Die Konsequenz der Annahmeverletzung ist, dass die geschätzten \(\beta\)-Schätzer den Zusammenhang zwischen abhängiger und unabhängiger Variable nicht darstellen können und die Standardabweichungen verzerrt sind.


                                           

Es ist sehr hilfreich, sich die jeweiligen Streudiagramme anzuschauen, da der Korrelationskoeffizient bei extremen Ausreißern oder einem nichtlinearen Zusammenhang zwischen zwei Variablen irreführende Werte annimmt. Das Plotten der Daten vor dem Berechnen eines Korrelationskoeffizienten ermöglicht, die lineare Beziehung zu überprüfen und mögliche Ausreißer zu identifizieren. Der Fall (A) zeigt starke positive Korrelation einen starken linearen Zusammenhang (= steigende Gerade). Fall (B) hingegen verbildlicht einen Fall, in dem ein linearer Zusammenhang als Annahme unpassend ist. Fall (C) veranschaulicht ein Beispiel, in dem alle bis auf eine Observation den gleichen \(X_i\)-Wert aufweisen. Der eine Ausreißer sorgt dafür, dass ein positiver Zusammenhang angezeigt wird, obwohl die anderen Wertepaare keinen Zusammenhang zwischen den Variablen anzeigen. (D) zeigt ein Beispiel, in dem keine Korrelation kein Zusammmenhang zwischen den Variablen zu beobachten erkennen ist und die Annahme eines linearen Zusammenhangs nicht sinnvoll erscheint.

Eine andere Möglichkeit zur Überprüfung des linearen Zusammenhangs ist die Benutzung von Partial Residual Plots. Diese werden verwendet, wenn es mehr als eine unabhängige Variable gibt. Gewöhnliche Streudiagramme bilden immer den Zusammenhang zweier metrischer Variablen ab, ohne dass der Einfluss anderer sich im Modell befindlicher Variablen beachtet wird. Bei Partial Residual Plots wird also das Verhältnis zwischen einer unabhängigen und der abhängigen Variable unter Berücksichtigung der anderen im Modell enthaltenen Kovariaten abgebildet. Wie im Streudiagramm wird auf der Abszisse die unabhängige Variable, auf der Ordinate hingegen die sogenannte Komponente zuzüglich der Residuen aus dem geschätzen Modell abgetragen. Die Komponente entspricht \(\hat{\beta}_{i}\cdot X_{i}\), berücksichtigt also durch den geschätzten Beta-Wert der i-ten Variable den Einfluss der anderen Kovariaten im Modell. 

Beispiel 1: Verletzung der Linearitätsannahme

Die Nettomiete pro Quadratmeter 2003 in München wird mit einer Variable Wohnfläche erklärt. Die abhängige Variable \(y_i\) ist die Nettomiete pro Quadratmeter \(\texttt{nmqm}_i\) und die unabhängige Variable \(x_i\) ist die Wohnfläche \(\texttt{wfl}_i\).

Ein Streudiagramm der Variablen \(\texttt{nmqm}_i\) gegen \(\texttt{wfl}_i\):

Image Removed

Der Anteil an Schülern einer Schule, die Anspruch auf ein subventioniertes Mittagessen haben wird mit dem Durchschnittseinkommen des Schuldistrikts erklärt. Die Daten stammen aus einem Datensatz über die Testergebnisse und weitere Merkmale kalifornischer Schulen im Jahr 1999.

Ein Streudiagramm legt nahe, dass es einen Zusammenhang zwischen den beiden Variablen gibt:

Image Added

Die Nettomiete pro Quadratmeter wird durch Nettomiete/Wohnfläche berechnet. Hier liegt ein nicht-linearer Zusammenhang zwischen Nettomiete pro Quadratmeter und Wohnfläche den beiden Variablen vor. Dieser nicht-lineare Zusammenhang wird im Streudiagramm deutlich. 

Die blaue rote Linie zeigt die lineare Beziehung der zwei VariablenRegressionsgerade der linearen Regression mit Durchnittseinkommen als unabhängiger Variable. Die rote Kurve ist eine Glättungskurve. Die Glättungskurve weicht von der blauen Kurve ab. Somit kann man erkennen, dass hier eine Annahmeverletzung der Linearität vorliegt.

Erkennen von Verletzungen dieser Annahmen

Verletzungen von unterschiedlichen Annahmen lassen sich bei grafischer Untersuchung von geschätzten Residuen entdecken. Folgender Link zeigt beispielhaft, wie die Verletzung von Linearität (curved up/down) und die Verletzung von Homoskedastizität (fan-shaped) in verschiedenen Diagrammen aussehen.

  Link in New WindowlinkTextRegressionsdiagnostik: Beispielhrefhttps://gallery.shinyapps.io/slr_diag/

blaue Kurve ist die Gerade einer lokalen gewichteten polynomialen Regression (LOWESS, siehe Infobox), die Abweichungen von der linearen Form erlaubt. Man kann erkennen, dass die Annahme der Linearität verletzt ist.




Code R

View file
nameLinearität.R
height150

Code Stata

View file
nameLinearität.do
height150

Code SPSS

View file
nameLinearität.sps
height150

Code SAS

View file
nameLinearität.sas
height150

Daten als CSV-Datei

View file
nameCaschool.csv
height150

Info
titleLOWESS Regression

LOWESS ist ein nicht-parametrisches, lokales Regressionsverfahren, welches viele einzelne Regressionen für Untergruppen der Daten berechnet und einen geglätteten Zusammenhang darstellen kann. Es ist deshalb gut geeignet, um einen Eindruck über den funktionalen Zusammenhang zwischen zwei Variablen zu bekommen.


Korrektur der Annahmeverletzung

Korrektur 1: Transformation des Regressors

Anker
Transformation
Transformation

  • Logarithmische Transformation

    Die logarithmische Transformation ist aus mehreren Gründen nützlich. Erstens kann eine multiplikative Beziehung zwischen abhängiger und unabhängiger Variable durch die logarithmische Transformation linearisiert werden (siehe Beispiel 2). Zweitens kann die logarithmische Transformation die Schiefe und Heteroskedastizität (siehe Annahmen 3 und 6) in der Verteilung der abhängigen Variable reduzieren (Heij et al. 2004).

    Beispiel 2: \(y_i = \alpha_1 x^{\alpha_2}_i \epsilon_i\) (Heij et al. 2004)

    Die abhängige Variable \(y_i\) hat einen multiplikativen Zusammenhang mit der unabhängige Variable \(x_i\): \(y_i = \alpha_1 x^{\alpha_2}_i  e^{\epsilon_i}\). In diesem Fall kann die Beziehung durch die logarithmische Transformation linearisiert werden. Wenn die beiden Seiten logarithmiert werden, wird die Gleichung linear:  \(\log y_i = \log{\alpha_1} + \alpha_2 \log{x_i} + \epsilon_i\).


    Beispiel 3: Korrektur der Nichtlinearität durch Transformation

    Bei den Daten aus dem obigen graphischen Beispiel wird die Variable Durchschnittseinkommen logarithmiert um die Annahmenverletzung zu korrigieren. Die Gerade der linearen und der polynomialen Regression liegen nicht übereinander, aber es ist eine wesentliche Verbesserung erkennbar. Mit empirischen (nicht-simulierten) Daten einen perfekten linearen Zusammenhang zu erreichen ist oft nicht realistisch, aber ausreichende Annäherungen sind möglich.

    Image Added



  • Power-Transformation

    Wenn die nichtlineare Beziehung zwischen der abhängigen Variable und einer unabhängigen Variable durch eine Transformation der unabhängigen Variable in eine lineare Beziehung umgewandelt wird, kann die Annahmeverletzung korrigiert werden. Durch die Wahl der Potenz (\(\lambda\)) kann die nicht-lineare Beziehung linearisiert werden. Die folgende Tabelle (Schlittgen 2009) dient als Übersicht über wichtige Werte der Potenzen \(\lambda\):

    \(\lambda\)Transformierte Werte \(x^{\lambda}\)Auswahl der Transformation
    3\(x^3\)


    Wenn mit wachsenden \(X\)-Werten die Änderungen der \(Y\)-Werte stärker werden.

    2,5\(x^{2,5}\)
    2\(x^{2}\)
    1,5\(x^{1,5}\)
    1\(x\)-
    0,5\(\sqrt{x}\)

    Wenn mit wachsenden \(X\)-Werten die Änderungen der \(Y\)-Werte schwächer werden.

    0\(\ln{x}\)
    -0,5\(\frac{1}{\sqrt{x}}\)
    -1\(\frac{1}{x}\)

    Außerdem ist u.a. auch die Box-Cox-Transformation eine geiegnete geeignete Transformation für die Linearisierung (Schlittgen 2009).

    Beispiel 3: Korrektur der Nichtlinearität durch die Transformation

    Die Nettomiete pro Quadratmeter 2003 in München wird mit einer Variable Wohnfläche erklärt. Die abhängige Variable \(y_i\) ist die Nettomiete pro Quadratmeter \(\texttt{nmqm}_i\) und die unabhängige Variable \(x_i\) ist die Wohnfläche \(\texttt{wfl}_i\).

    Die abhängige Variable, Nettomiete pro Quadratmeter, ist die Nettomiete geteilt durch die Wohnfläche:  \(\texttt{nmqm}_i\) = \(\texttt{Miete}_i\) / \(\texttt{wfl}_i\

    ).

    Das heißt: die Variable \(\texttt{nmqm}_i\) hat zwar eine nichtlineare Beziehung mit der Variable  \(\texttt{wfl}_i\), aber eine lineare Beziehung mit der Inverse der Variable \(\texttt{wfl}_i, \texttt{wflinvers}_i\). Durch die Transformation der Variable \(\texttt{wfl}_i\), könnte die Annahmeverletzung korrigiert werden. Image Removed


Korrektur 2: Aufnahme zusätzlicher Potenzen des Regressors

Wenn die abhängige Variable nichtlinear von einer unabhängigen Variable abhängt, so kann durch die Aufnahme zusätzlicher Exponenten von Potenzen der unabhängigen Variable in das Modell ein linearer Zusammenhang, erreicht werden (Schlittgen 2013).

Beispiel 4: Korrektur der Nichtlinearität durch die Aufnahme zusätzlicher Potenzen

Das Monatsbruttoeinkommen wird durch die Berufserfahrung erklärt. Die abhängige Variable \(y_i\) ist das Monatsbruttoeinkommen \(\texttt{lohn}_i\) und die unabhängige Variable \(x_i\) ist die Berufserfahrung \(\texttt{erfahrung}_i\).

Ein Streudiagramm der Variablen  \(\texttt{lohn}_i\) gegen \(\texttt{erfahrung}_i\):

Image RemovedZwischen Monatsbruttoeinkommen und der Berufserfahrung liegt schon ein positiver Zusammenhang vor, der allerdings nicht linear ist. Mit steigender Berufserfahrung sinkt die marginale Veränderung des Monatsbruttoeinkommens. Durch die Aufnahme der quadrierten Variable \(\texttt{erfahrung}_i\) kann dieser

Durch die Aufnahme von quadrierten Variablen können z.B. sinkende Marginaleffekt linearisiert werden.



Alternative: Nichtlineare Regression

Wenn keine Möglichkeit besteht, den nicht-linearen Zusammenhang zu linearisieren, kann eine nichtlineare Regression durchgeführt werden (Hübler 2005). Ein nichtlineares Regressionsmodell setzt voraus, dass die Regressoren mit der abhängigen Variable nicht-linear zusammenhängen:

\(y_i \sim f(x_{i, 1}, ..., x_{i, p}, \beta_0, ..., \beta_{p})\), wobei die Funktion \(f\) nicht-linear für die Komponenten der \(\beta\)-Parameter ist, aber die Form der Funktion ansonsten unbekannt ist. 


Literatur

Heij, Christian, de Boer, Paul, Franses, Philip Hans, Teun Kloek und Herman K. van Dijk. 2004. Econometric Methods with Applications in Business and Economics. Oxford: Oxford University Press.

Hübler, Olaf. 2005. Einführung in die empirische Wirtschaftsforschung. München: Oldenbourg.

Schlittgen, Rainer. 2009. Multivariate Statistik. München: Oldenbourg.

Schlittgen, Rainer. 2013. Regressionsanalysen mit R. München: Oldenbourg. 

Beispieldaten: R-Package

Info
titleGlättungskurve

Die rote Glättungskurve repräsentiert die Modellierung des Zusammenhangs durch sogenannte Splines.

Bildergalerie

galleryEcdat: Data Sets for Econometrics, Version 0.3; https://CRAN.R-project.org/package=Ecdat