Versionen im Vergleich

Schlüssel

  • Diese Zeile wurde hinzugefügt.
  • Diese Zeile wurde entfernt.
  • Formatierung wurde geändert.

Hier sollte eine kurze Zusammenfassung und Einleitung des Abschnittes sein. Diese Seite dient als Vorlage für einen Artikel im Wiki und kann entsprechend angepasst werden.

Inhaltsverzeichnis

Inhalt
maxLevel2
excludeInhaltsverzeichnis|Bildergalerie



Annahme 1: Linearität

Ursachen für die Annahmeverletzung

Der wahre Zusammenhang zwischen der abhängigen Variable \(y_{i}\) , und den unabhängigen Variablen \(x_{1, i}, x_{2, i}, ..., x_{K-1, i}\) ,  ist muss linear sein.  Die Nicht-Linearität könnte kann aus folgenden Gründen auftreten:

  1. Multiplikativer Zusammenhang zwischen der abhängigen Variable und den unabhängigen Variablen
  2. Steigender/sinkender Marginaleffekt
  3. Sonstiger nicht-linearer Zusammenhang sowie , wie quadratische Form, kubische Form, Inverse, etc.  



Überprüfung der Linearität und Konsequenz der Annahmeverletzung

Im Fall einer einfachen linearen Regression kann die Linearität durch ein Streudiagramm der abhängigen Variable gegen die unabhängige Variable überprüft werden. In einem multiplen linearen Regressionsmodell ist dies schwieriger. Es bietet sich deswegen an, die abhängige Variable gegen alle unabhängigen Variablen einzeln in je einem Streudiagramm darzustellen (Schlittgen 2013). DZunächst sollte untersucht werden, ob zwischen den metrischen unabhängigen Variablen und der abhängigen Variable überhaupt ein linearer Zusammenhang besteht. Dies lässt sich sehr gut grafisch anhand von Streudiagrammen überprüfen. Der Zusammenhang der Variablen, der von dem Streudiagramm angezeigt wird, sollte approximativ linear sein. Die  Die Konsequenz der Annahmeverletzung ist, dass die geschätzten \(\beta\)-Schätzer den Zusammenhang zwischen abhängiger und unabhängiger Variable nicht darstellen können und die Standardabweichungen verzerrt sind.


                                           Image Added

Es ist sehr hilfreich, sich die jeweiligen Streudiagramme anzuschauen, da der Korrelationskoeffizient bei extremen Ausreißern oder einem nichtlinearen Zusammenhang zwischen zwei Variablen irreführende Werte annimmt. Das Plotten der Daten vor dem Berechnen eines Korrelationskoeffizienten ermöglicht, die lineare Beziehung zu überprüfen und mögliche Ausreißer zu identifizieren. Der Fall (A) zeigt einen starken linearen Zusammenhang (= steigende Gerade). Fall (B) hingegen verbildlicht einen Fall, in dem ein linearer Zusammenhang als Annahme unpassend ist. Fall (C) veranschaulicht ein Beispiel, in dem alle bis auf eine Observation den gleichen \(X_i\)-Wert aufweisen. Der eine Ausreißer sorgt dafür, dass ein positiver Zusammenhang angezeigt wird, obwohl die anderen Wertepaare keinen Zusammenhang zwischen den Variablen anzeigen. (D) zeigt ein Beispiel, in dem kein Zusammmenhang zwischen den Variablen zu erkennen ist und die Annahme eines linearen Zusammenhangs nicht sinnvoll erscheint.

Eine andere Möglichkeit zur Überprüfung des linearen Zusammenhangs ist die Benutzung von Partial Residual Plots. Diese werden verwendet, wenn es mehr als eine unabhängige Variable gibt. Gewöhnliche Streudiagramme bilden immer den Zusammenhang zweier metrischer Variablen ab, ohne dass der Einfluss anderer sich im Modell befindlicher Variablen beachtet wird. Bei Partial Residual Plots wird also das Verhältnis zwischen einer unabhängigen und der abhängigen Variable unter Berücksichtigung der anderen im Modell enthaltenen Kovariaten abgebildet. Wie im Streudiagramm wird auf der Abszisse die unabhängige Variable, auf der Ordinate hingegen die sogenannte Komponente zuzüglich der Residuen aus dem geschätzen Modell abgetragen. Die Komponente entspricht \(\hat{\beta}_{i}\cdot X_{i}\), berücksichtigt also durch den geschätzten Beta-Wert der i-ten Variable den Einfluss der anderen Kovariaten im Modell. 

Beispiel 1: Verletzung der Linearitätsannahme

Die Nettomiete pro Quadratmeter 2003 in München wird mit einer Variable Wohnfläche erklärt. Die abhängige Variable \(y_i\) ist die Nettomiete pro Quadratmeter \(\texttt{nmqm}_i\) und die unabhängige Variable \(x_i\) ist die Wohnfläche \(\texttt{wfl}_i\).

Ein Streudiagramm der Variablen \(\texttt{nmqm}_i\) gegen \(\texttt{wfl}_i\):

Image Removed

Die Nettomiete pro Quadratmeter wird durch Nettomiete/Wohnfläche berechnet.

Beispiel 1: Verletzung der Linearitätsannahme

Der Anteil an Schülern einer Schule, die Anspruch auf ein subventioniertes Mittagessen haben wird mit dem Durchschnittseinkommen des Schuldistrikts erklärt. Die Daten stammen aus einem Datensatz über die Testergebnisse und weitere Merkmale kalifornischer Schulen im Jahr 1999.

Ein Streudiagramm legt nahe, dass es einen Zusammenhang zwischen den beiden Variablen gibt:

Image Added

Hier liegt ein nicht-linearer Zusammenhang zwischen

Nettomiete pro Quadratmeter und Wohnfläche

den beiden Variablen vor. Dieser nicht-

linearer

lineare Zusammenhang wird

auch in dem

im Streudiagramm deutlich. 

Die rote Linie zeigt die

lineare Beziehung der zwei Variablen

Regressionsgerade der linearen Regression mit Durchnittseinkommen als unabhängiger Variable. Die

gestrichelte

blaue Kurve ist

eine Glättungskurve (Smooth line). Die Glättungskurve weicht stark von der linearen Beziehung ab. Somit kann man erkennen, dass hier eine Annahmeverletzung der Linearität vorliegt

die Gerade einer lokalen gewichteten polynomialen Regression (LOWESS, siehe Infobox), die Abweichungen von der linearen Form erlaubt. Man kann erkennen, dass die Annahme der Linearität verletzt ist.




Code R

View file
nameLinearität.R
height150

Code Stata

View file
nameLinearität.do
height150

Code SPSS

View file
nameLinearität.sps
height150

Code SAS

View file
nameLinearität.sas
height150

Daten als CSV-Datei

View file
nameCaschool.csv
height150

Info
titleLOWESS Regression

LOWESS ist ein nicht-parametrisches, lokales Regressionsverfahren, welches viele einzelne Regressionen für Untergruppen der Daten berechnet und einen geglätteten Zusammenhang darstellen kann. Es ist deshalb gut geeignet, um einen Eindruck über den funktionalen Zusammenhang zwischen zwei Variablen zu bekommen.


Korrektur der Annahmeverletzung

Korrektur 1: Transformation des Regressors

Anker
Transformation
Transformation

  • Logarithmische Transformation

    Die logarithmische Transformation ist aus mehreren Gründen nützlich. Erstens , wenn die abhängige Variable und die unabhängigen Variablen mit einer multiplikativen Form zusammemhängen, kann diese Beziehung kann eine multiplikative Beziehung zwischen abhängiger und unabhängiger Variable durch die logarithmische Transformation linearisiert werden (siehe Beispiel 2). Zweitens , kann die logarithmische Transformation könnte die Schiefe und Heteroskedastizität (siehe Annahmen 3 und 6) in der Verteilung der abhängigen Variable reduzieren (Heij et al. 2004).

    Beispiel 2: \(y_i = \alpha_1 x^{\alpha_2}_i \epsilon_i\) (Heij et al. 2004)

    Die abhängige Variable \(y_i\) hat einen multiplikativen Zusammenhang mit der unabhängige Variable \(x_i\): \(y_i = \alpha_1 x^{\alpha_2}_i  e^{\epsilon_i}\). In diesem Fall kann die Beziehung durch die logarithmische Transformation linearisiert werden. Wenn die beiden Seiten logarithmiert werden, wird die Gleichung linear:  \(\log y_i = \log{\alpha_1} + \alpha_2 \log{x_i} + \epsilon_i\).


    Beispiel 3: Korrektur der Nichtlinearität durch Transformation

    Bei den Daten aus dem obigen graphischen Beispiel wird die Variable Durchschnittseinkommen logarithmiert um die Annahmenverletzung zu korrigieren. Die Gerade der linearen und der polynomialen Regression liegen nicht übereinander, aber es ist eine wesentliche Verbesserung erkennbar. Mit empirischen (nicht-simulierten) Daten einen perfekten linearen Zusammenhang zu erreichen ist oft nicht realistisch, aber ausreichende Annäherungen sind möglich.

    Image Added



  • Power-Transformation

    Wenn die nichtlineare Beziehung zwischen der abhängigen Variable und einer unabhängigen Variable durch eine Transformation der unabhängigen Variable in eine lineare Beziehung umgewandelt wird, kann die Annahmeverletzung korrigiert werden. Durch die Wahl des Exponenten der Potenz (\(\lambda\)) kann die nicht-lineare Beziehung linearisiert werden. Die folgende Tabelle (Schlittgen 2009) dient als Übersicht über wichtige Werte der Exponenten Potenzen \(\lambda\):

    \(\lambda\)Transformierte Werte \(x^{\lambda}\)Auswahl der Transformation
    3\(x^3\)


    Wenn mit wachsenden \(X\)-Werten die Änderungen der \(Y\)-Werte stärker werden.

    2,5\(x^{2,5}\)
    2\(x^{2}\)
    1,5\(x^{1,5}\)
    1\(x\)-
    0,5\(\sqrt{x}\)

    Wenn mit wachsenden \(X\)-Werten die Änderungen der \(Y\)-Werte schwächer werden.

    0\(\ln{x}\)
    -0,5\(\frac{1}{\sqrt{x}}\)
    -1\(\frac{1}{x}\)

    Außerdem ist u.a. auch die Box-Cox-Transformation, als auch die Power-Transformation, auch eine geeignete Transformation für die Linearisierung geeignet (Schlittgen 2009).

    Beispiel 3: Korrektur der Nichtlinearität durch die Transformation

    Die Nettomiete pro Quadratmeter 2003 in München wird mit einer Variable Wohnfläche erklärt. Die abhängige Variable \(y_i\) ist die Nettomiete pro Quadratmeter \(\texttt{nmqm}_i\) und die unabhängige Variable \(x_i\) ist die Wohnfläche \(\texttt{wfl}_i\).

    Die abhängige Variable, Nettomiete pro Quadratmeter, ist die Nettomiete geteilt durch die Wohnfläche:  \(\texttt{nmqm}_i\) = \(\texttt{Miete}_i\) / \(\texttt{wfl}_i\

    ).

    Das heißt: die Variable \(\texttt{nmqm}_i\) hat zwar eine nichtlineare Beziehung mit der Variable  \(\texttt{wfl}_i\), aber eine lineare Beziehung mit der Inverse der Variable \(\texttt{wfl}_i, \texttt{wflinvers}_i\). Durch die Transformation der Variable \(\texttt{wfl}_i\), könnte die Annahmeverletzung korrigiert werden. 

    Image Removed


Korrektur 2: Aufnahme zusätzlicher Potenzen des Regressors

Wenn die abhängige Variable nichtlinear von einer unabhängigen Variable abhängt, so kann durch die Aufnahme zusätzlicher von Potenzen von der unabhängigen Variable in das Modell eine zufriedenstellende Erklärung, also ein linearer Zusammenhang, erreicht werden (Schlittgen 2013).

Beispiel 4: Korrektur der Nichtlinearität durch die Aufnahme zusätzlicher Potenzen

Das Monatsbruttoeinkommen wird durch die Berufserfahrung erklärt. Die abhängige Variable \(y_i\) ist das Monatsbruttoeinkommen \(\texttt{lohn}_i\) und die unabhängige Variable \(x_i\) ist die Berufserfahrung \(\texttt{erfahrung}_i\).

Ein Streudiagramm der Variablen  \(\texttt{lohn}_i\) gegen \(\texttt{erfahrung}_i\):

Image RemovedZwischen Monatsbruttoeinkommen und der Berufserfahrung liegt schon ein positiver Zusammenhang vor, der allerdings nicht linear ist. Mit steigender Berufserfahrung sinkt die marginale Veränderung des Monatsbruttoeinkommens. Durch die Aufnahme der quadrierten Variable \(\texttt{erfahrung}_i\) kann dieser

Durch die Aufnahme von quadrierten Variablen können z.B. sinkende Marginaleffekt linearisiert werden.



Alternative: Nichtlineare Regression

Wenn keine Möglichkeit besteht, den nicht-linearen Zusammenhang zu linearisieren, kann eine nichtlineare Regression durchgeführt werden (Hübler 2005). Ein nichtlineares Regressionsmodell setzt voraus, dass die Regressoren mit der abhängigen Variable nicht-linear zusammenhängen:

\(y_i \sim f(x_{i, 1}, ..., x_{i, K-1p}, \beta_0, ..., \beta_{K-1p})\), wobei die Funktion \(f\) nicht-linear für die Komponenten der \(\beta\)-Parameter ist, aber ansonsten die Form der Funktion ansonsten unbekannt ist. 


Literatur

Heij, Christian, de Boer, Paul, Franses, Philip Hans, Teun Kloek und Herman K. van Dijk. 2004. Econometric Methods with Applications in Business and Economics. Oxford: Oxford University Press.

Hübler, Olaf. 2005. Einführung in die empirische Wirtschaftsforschung. München: Oldenbourg.

Schlittgen, Rainer. 2009. Multivariate Statistik. München: Oldenbourg.

Schlittgen, Rainer. 2013. Regressionsanalysen mit R. München: Oldenbourg. 

Beispieldaten: R-Package

Anhänge
previewfalse
uploadfalse
oldfalse
labelsgrafiken

Info
titleGlättungskurve

Die rote Glättungskurve stellt einen Spline dar.

Zum Umgang mit Abbildungen und Tabellen Ankertest4test4

Format im Text

Abbildungen und Tabellen werden zentriert. Alle Abbildungen besitzen eine Bildüberschrift, die Teil der Abbildung ist. Wenn dies nicht möglich ist, dann wird entsprechend im Wiki-Editor eine zentrierte Überschrift hinzugefügt. Nach Möglichkeit sollten Bilder eine Überschrift als Eigenschaft haben.

AbweichungenImage Removed

Info
titleAbweichung

Abbildungen können und sollten über Infoboxen verfügen. Die Infobox besitzt den selben Titel wie die Abbildung. In dieser Box können Quellenangaben und weitere Informationen enthalten sein.

Formeln

Formeln werden wie Latexcode geschrieben. Für eine gute Einführung siehe Wikibooks.

Eigenständig stehende Formeln werden wie folgt erzeugt.

\[y_{i}= \beta_0 + \beta _{1}x_i+ \epsilon_i,\]

wobei \(\varepsilon_i \sim \mathcal{N}(0,\sigma^2)\) eine Inline-Formel ist.

Hilfe

Es gibt eine Einführung der CeDiS für das Wiki.

Es steht auch das Markup von Confluence zur Verfügung. Siehe z.B. die Hilfe für das Wiki.

Zitieren

Quellenangaben erfolgen mittels eines Superskripts.

 Diese werden mit Hilfeder Makros "Single Cite"

und "Single Cite Short" erstellt. Siehe dazu auch die Hilfe.

Videos

Quellennachweis

Bildergalerie

galleryEcdat: Data Sets for Econometrics, Version 0.3; https://CRAN.R-project.org/package=Ecdat