Seitenhistorie

...

Annahme	Was bedeutet das wirklich?	Wann wird die Annahme wahrscheinlich verletzt?	Warum is das ein Problem?
Linearität	Lineare Abhängigkeit zwischen den erklärenden Variablen und der Zielvariable		Schätzwerte der Koeffizienten sind verzerrt
Erwartungswert der Störgröße gleich Null	Die Beobachtungen der abhängigen Variable y weichen nicht systematisch von der Regressionsgeraden ab, sondern streuen zufällig darum.	Klar voneinander abgegrenzte Untergruppen in den Daten können dieses Problem verursachen (Männer vs Frauen).	Verzerrung der Schätzung von \(\beta_{0}\)
Unabhängigkeit der Fehlerterme	verschiedene Beobachtungseinheiten beinflussen sich nicht gegenseitig	Abhängigkeit der Beobachtungen tritt häufig in der Zeitreihenanalyse auf (Temperaturen in Sommer vs. Winter)	Verzerrung bei der Ermittlung der Standardfehler und Konfidenzintervalle; daraus folgt Ineffizienz der Schätzung
Homoskedastizität	Die Varianz des Fehlerterms darf nicht von unabhängigen Variablen oder der Beobachtungsreihenfolge abhängig sein, somit sollte die Varianz konstant für alle Beobachtungseinheiten sein	Klar voneinander abgegrenzte Untergruppen in den Daten können dieses Problem verursachen (Männer vs Frauen).	Konfidenzintervalle und Hypothesentests sind nicht verlässlich, da die Standardfehler der Regressionskoeffizienten verfälscht berechnet werden. Die geschätzten Koeffizienten sind nicht mehr BLUE (nicht mehr effizient).
Residuen normalverteilt	Die Fehlerterme folgen eine Normalverteilung	Das passiert, wenn die berechnete Linearkombination der Kovariaten die Verteilung der unabhängigen Variable nicht gut genug abbilden	Konfidenzintervalle und Hypothesentests sind ungültig
Nicht-Kollinearität	Die unabhängigen Variablen dürfen untereinander nicht zu stark korrelieren.	Es (Multi) Kollinearität liegt vor, wenn zwei oder mehr erklärende Variablen eine starke Korrelation untereinander aufweisen (z.B. Brutto- und Nettoeinkommen)	Schätzungen der Regressionsparameter werden unzuverlässig; Redundanz in den Daten durch Überschneidung der Streuung in den unabhängigen Variablen => weniger Aussagekraft durch das Modell; möglicherweise werden Koeffizienten insignifikant, obwohl sie Erklärungsgehalt bieten
\(Cov(X,\epsilon)=0\)	Unkorreliertheit von unabhängigen Variablen und Störterm	Diese Annahme wird beispielsweise verletzt, wenn nicht alle für das Modell relevanten Kovariate aufgenommen werden (können) und diese mit enthaltenen Variablen korreliert sind	Die geschätzten Koeffizienten der endogenen Variablen sind nicht unverzerrtverzerrt. OLS (kleinste Quadrate Methode) berechnet einfach stets die Parameter, die die Fehler und unabhängigen Variablen unkorreliert erscheinen lassen.

...

Es ist sehr hilfreich sich die jeweiligen Streudiagramme anzuschauen, da der Korrelationskoeffizient bei beispielsweise extremen Ausreißern oder einem nichtlinearen Zusammenhang zwischen zwei Variablen irreführende Werte annimmt. Das Plotten der Daten vor dem Berechnen eines Korrelationskoeffizienten ermöglicht, die lineare Beziehung zu überprüfen und mögliche Ausreißer zu identifizieren. Der Fall (A) zeigt starke positive Korrelation (= steigende Gerade). Fall (B) hingegen verbildlicht einen Fall in dem ein linearer Zusammenhang als Annahme unpassend ist. Fall (C) veranschaulicht ein Beispiel für eine sehr starke lineare Beziehung mit einem extremen Ausreißer. In diesem Fall wird wegen des Ausreißers ein geringerer Korrelationskoeffizient ausgegeben, obwohl für diese Daten die Annahme eines linearen Zusammenhangs (eventuell nach Ausschluss des Ausreißers) sehr sinnvoll ist. (D) zeigt ein Beispiel in dem keine Korrelation zwischen den Variablen zu beobachten ist und die Annahme eines linearen Zusammenhangs nicht als sinnvoll erscheint.

Eine andere Möglichkeit zur Überprüfung des linearen Zusammenhangs ist die Benutzung von Partial Residual Plots. Dieses Diese werden verwendet, falls es mehr als eine unabhängige Variable gibt. Problematisch bei mehr als einer unabhängigen Variable ist, dass bei der Erstellung von Scatterplots nicht berücksichtigt wird, dass die anderen unabhängigen Variablen auch Einfluss auf die abhängige Variable nehmenGewöhnliche Streudiagramme bilden immer den Zusammenhang zweier metrischer Variablen ab, ohne dass der Einfluss anderer, sich im Modell befindlicher Variablen beachtet wird. Bei Partial Residual Plots wird also das Verhältnis zwischen einer unabhängigen und der abhängigen Variable unter Berücksichtigung der anderen im Modell enthaltenen Kovariaten abgebildet. Wie im Streudiagramm wird auf der Abszisse die unabhängige Variable, auf der Ordinate hingegen die sogenannte Komponente zuzüglich der Residuen aus dem geschätzen Modell abgetragen. Die Komponente entspricht \(\hat{\beta}_{i}\cdotX_{i}\) Dieser lineare Zusammenhang wird auf dem Schaubild in Form einer roten Geraden dargestellt. Die grüne Gerade repräsentiert die Modellierung des Zusammenhangs durch sogenannte Splines. Sollte der Zusammenhang nicht linear sein, so können eventuell die im weiteren vorgestellten Transformationen dazu benutzt werden, den Zusammenhang zu linearisieren.

...

Bereichsverknüpfungen

Seitenhierarchie

Versionen im Vergleich

Alte Version 51

Neue Version 52

Schlüssel