...
Annahme | Was bedeutet das wirklich? | Wann wird es die Annahme wahrscheinlich verletzt? | Warum is das ein Problem? |
---|---|---|---|
Linearität | Lineare Abhängigkeit zwischen den erklärenden Variablen und der Zielvariable | Das Modell wäre missspezifiziert | |
Erwartungswert der Störgröße gleich Null | Die Beobachtungen der abhängigen Variable Y y weichen nicht systematisch von der Regressionsgeraden ab, sondern streuen zufällig darum. | Gut definierte Untergruppen in den Daten können dieses Problem verursachen (Männer vs Frauen). | Verzerrung der Schätzungen Schätzung von \(\beta_{0}\) |
Unabhängigkeit | Es kann nicht der Fall sein, dass das Wissen des Wertes von y für eine Beobachtung, sagt uns, ob der Wert von y für einen anderen Fall über oder unter seinem Erwartungswert liegt.Beobachtungeinheit, etwas über den Wert einer anderen Beobachtungseinheit aussagt. | Abhängigkeit der Beobachtungen Es tritt häufig in der Zeitreihenanalyse auf (Temperaturen in Sommer vs. Winter) | Maßnahmen der Stärke der Beziehung zwischen x und y können sehr irreführend sein |
Es kann sollte nicht der Fall sein, dass die Beziehung x/y für eine Beobachtung stärker und für eine andere schwächer ist. | Gut definierte Untergruppen in den Daten können dieses Problem verursachen (Männer vs Frauen). | Bo und B1 werden nicht genau geschätzt. Noch wichtiger ist, dass die Bewertung der Vorhersagegenauigkeit nicht korrekt ist. | |
Residuen normalverteilt | Die Fehlerterme folgen eine Normalverteilung | Das kann immer passieren | Konfidenzintervalle und Hypothesentests können sind Ungültigkeitungültig. |
Es kann nicht vorkomenn, dass wenn eine Beobachtung hat bestimmte Werte, andere Beobachtungen genau so ausehenDie unabhängigen Variablen dürfen untereinander nicht zu stark korrelieren. | Es liegt vor, wenn zwei oder mehr erklärende Variablen eine starke Korrelation miteinander haben (Arbeiten und Gehald Bekomen ) | Overfitting in Regressionsanalysemodellen kann vorkommen, Redundanz bei der Interpretation der erklärende variablen. |
...
Wenn die Beziehung zwischen zwei Variablen nichtlinear ist oder wenn Ausreißer vorhanden sind, schätzt der Korrelationskoeffizient falsch die Stärke der Beziehung falsch. Das Plotten der Daten vor dem Berechnen eines Korrelationskoeffizienten ermöglicht, die lineare Beziehung zu überprüfen und die möglichen Ausreißer zu identifizieren. Der Fall (A) zeigt positiven Korrelation, wobei die Gerade steigt: starke positive (Gerade steigt) Korrelation. Fall (B) zeigt eine unpassende Form der Funktioneinen unpassenden, da nichtlinearen Zusammenhang. Fall (C) veranschaulicht einen Fall, in dem es eine strenge lineare Beziehung gibt, außer bei einen Beobachtung mit großem Einfluss auf die Schätzer und (D) zeigt ein Beispiel von nicht-Korrelation zwieschen in dem keine Korrelation zwischen den Variablen zu beobachten ist.
Andere Eine andere Möglichkeit ist die sogenannte Partial Residual Plot zu benutzen. Eine lineare Zusammenhang Ein linearer Zusammenhang wird auf dem Schaubild in Form einer roten Gerade is gezeigt. Der grüner Gerade representiert die Modellierung dieser zusammenhang Geraden dargestellt. Die grüne Gerade repräsentiert die Modellierung des Zusammenhang durch sogenannte Splines. Sollte der Zusammenhang nicht linear sein, so können eventuell die vorgestellten Transformationen genutzt werden, um den Zusammenhang zu linearisieren.
...