Seitenhistorie

...

Annahme	Was bedeutet das wirklich?	Wann wird die Annahme wahrscheinlich verletzt?	Warum is das ein Problem?
Linearität	Lineare Abhängigkeit zwischen den erklärenden Variablen und der Zielvariable	Das Modell wäre missspezifiziert	Schätzwerte der Koeffizienten sind verzerrt
Erwartungswert der Störgröße gleich Null	Die Beobachtungen der abhängigen Variable y weichen nicht systematisch von der Regressionsgeraden ab, sondern streuen zufällig darum.	Gut definierte Klar voneinander abgegrenzte Untergruppen in den Daten können dieses Problem verursachen (Männer vs Frauen).	Verzerrung der Schätzung von \(\beta_{0}\)
Unabhängigkeit	verschiedene Beobachtungseinheiten beinflussen sich nicht gegenseitig	Abhängigkeit der Beobachtungen tritt häufig in der Zeitreihenanalyse auf (Temperaturen in Sommer vs. Winter)	Maßnahmen Verzerrung bei der Stärke Ermittlung der Beziehung zwischen x und y können sehr irreführend seinStandardfehler und Konfidenzintervalle; daraus folgt Ineffizienz der Schätzung
Homoskedastizität	Es sollte nicht der Fall sein, dass die Beziehung x/y für eine Beobachtung stärker und für eine andere schwächer ist.	Die Varianz des Fehlerterms darf nicht von unabhängigen Variablen oder der Beobachtungsreihenfolge abhängig sein	Klar voneinander abgegrenzte Untergruppen Gut definierte Untergruppen in den Daten können dieses Problem verursachen (Männer vs Frauen).	Konfidenzintervalle und Hypothesentests sind nicht verlässlich, da die Standardfehler der Regressionskoeffizienten nicht korrekt verfälscht berechnet werden. Die geschätzten Koeffizienten sind nicht mehr BLUE (nicht mehr effizient).
Residuen normalverteilt	Die Fehlerterme folgen eine Normalverteilung	Das kann immer passieren	Konfidenzintervalle und Hypothesentests sind ungültig.
Nicht-Kollinearität	Die unabhängigen Variablen dürfen untereinander nicht zu stark korrelieren.	Es liegt vor, wenn zwei oder mehr erklärende Variablen eine starke Korrelation miteinander haben (Arbeiten und Gehald Bekomen )	Schätzungen der Regressionsparameter werden unzuverlässig; Redundanz in den Daten durch Überschneidung der Streuung in den unabhängigen Variablen => weniger Aussagekraft durch das ModellOverfitting in Regressionsanalysemodellen kann vorkommen, Redundanz bei der Interpretation der erklärenden Variablen.

Die Gültigkeit der Annahmen sollte geprüft werden.

...

Wenn die Beziehung zwischen zwei Variablen nichtlinear ist oder wenn Ausreißer vorhanden sind, schätzt der Korrelationskoeffizient die Stärke der Beziehung falsch. Das Plotten der Daten vor dem Berechnen eines Korrelationskoeffizienten ermöglicht, die lineare Beziehung zu überprüfen und mögliche Ausreißer zu identifizieren. Der Fall (A) zeigt starke positive Korrelation (= steigende Gerade). Fall (B) zeigt einen unpassenden, da nichtlinearen Zusammenhang. Fall (C) veranschaulicht einen Fall, in dem es eine sehr starke lineare Beziehung gibt, mit der Ausnahme einer Beobachtung. Diese hat jedoch einen großen Einfluss auf den Steigungsparameter der Geraden. (D) zeigt ein Beispiel in dem keine Korrelation zwischen den Variablen zu beobachten ist.

...

Bereichsverknüpfungen

Seitenhierarchie

Versionen im Vergleich

Alte Version 30

Neue Version 31

Schlüssel