Seitenhistorie

Das lineare multiple lineare Regressionsmodell, in seiner allgemeinen Form mit \(P\) Kovariaten, wird folgendermaßen beschrieben:
\[ Y_{i} = \beta_0 + \beta_1 \cdot x_{1i} + \beta_2 \cdot x_{2i} + \ldots + \beta_P \cdot x_{Pi} + \epsilon_i \qquad (i=1,\ldots ,n) \]

...

Annahme	Was bedeutet das wirklich?	Wann wird die Annahme wahrscheinlich verletzt?	Warum is das ein Problem?
Linearität	Lineare Abhängigkeit zwischen den erklärenden Variablen und der Zielvariable		Schätzwerte der Koeffizienten sind verzerrt
Erwartungswert der Störgröße gleich Null	Die Beobachtungen der abhängigen Variable y weichen nicht systematisch von der Regressionsgeraden ab, sondern streuen zufällig darum.	Klar voneinander abgegrenzte Untergruppen in den Daten können dieses Problem verursachen (Männer vs Frauen).	Verzerrung der Schätzung von \(\beta_{0}\)
Unabhängigkeit	verschiedene Beobachtungseinheiten beinflussen sich nicht gegenseitig	Abhängigkeit der Beobachtungen tritt häufig in der Zeitreihenanalyse auf (Temperaturen in Sommer vs. Winter)	Verzerrung bei der Ermittlung der Standardfehler und Konfidenzintervalle; daraus folgt Ineffizienz der Schätzung
Homoskedastizität	Die Varianz des Fehlerterms darf nicht von unabhängigen Variablen oder der Beobachtungsreihenfolge abhängig sein, somit sollte die Varianz kon sein für die	Klar voneinander abgegrenzte Untergruppen in den Daten können dieses Problem verursachen (Männer vs Frauen).	Konfidenzintervalle und Hypothesentests sind nicht verlässlich, da die Standardfehler der Regressionskoeffizienten verfälscht berechnet werden. Die geschätzten Koeffizienten sind nicht mehr BLUE (nicht mehr effizient).
Residuen normalverteilt	Die Fehlerterme folgen eine Normalverteilung	Das kann immer passieren	Konfidenzintervalle und Hypothesentests sind ungültig
Nicht-Kollinearität	Die unabhängigen Variablen dürfen untereinander nicht zu stark korrelieren.	Es liegt vor, wenn zwei oder mehr erklärende Variablen eine starke Korrelation untereinander aufweisen (z.B. Brutto- und Nettoeinkommen)	Schätzungen der Regressionsparameter werden unzuverlässig; Redundanz in den Daten durch Überschneidung der Streuung in den unabhängigen Variablen => weniger Aussagekraft durch das Modell

...

Bereichsverknüpfungen

Seitenhierarchie

Versionen im Vergleich

Alte Version 39

Neue Version 40

Schlüssel