Versionen im Vergleich

Schlüssel

  • Diese Zeile wurde hinzugefügt.
  • Diese Zeile wurde entfernt.
  • Formatierung wurde geändert.

Erläuterung der Problemstellung

Im allgemeinen wird bei der Regressionsanalyse der Zusammenhang zwischen einer abängigen Variable Y und einer (X) oder mehrer unabhängiger Variablen (X1,X2,...,Xk) untersucht. Dieser Zusammenhang kann sich je nach Datenlage und untersuchter Fragestellung der empirischen Arbeit deutlich unterscheiden. In diesem Abschnitt Modellwahl, soll auf die gängigsten Modelle der Regressionsanalyse eingegangen werden. Anhand von bestimmten Kriterien wird erläutert, wann welche Modellierung am besten geeignet ist um den Zusammenhang in den vorliegenden Daten darzustellen. Ausgehend von dem funktionalen Zusammenhang $Y = f(X,\beta) + \epsilon$, der die abhängige Variable als Funktion von unabhängigen Variablen und zu schätzenden Parametern \beta zuzüglich eines Fehler- oder Residuenterms \epsilon ausdrückt. Um zu entscheiden, welches Modell geschätzt werden soll betrachtet man nun zuerst die abhängige Variable Y und kann auf Grund ihres Skalenniveaus eine Vorauswahl an Modellklassen treffen. Als zweiten Schritt betrachtet man den funktionalen Zusammenhang zwischen Y und X, und wählt so die passende Modellklasse aus. Abschließend muss überprüft werden, ob die jeweiligen zusätzlichen Annahmen der gewählten Modellierung erfüllt sind. 

Nach diesem Schema richtet sich auch dieser Wiki-Artikel und unterteilt die vorgestellten Modelle erst anhand des Skalenniveaus der abhängigen Variable und anschließend nach dem funktionalen Zusammenhang der Daten.

$F(x)={\frac {1}{1+e^{-(\beta _{0}+\beta _{1}x)}}}$

 

lineare Regression

Das lineare Regressionsmodell kann gewählt werden, wenn für die abhängige Variable und für die unabhängige/n Variable/n folgendes Skalenniveau vorliegt:

abhängige Variable (y) metrisch
unabhängige/n Variable/n (x)metrisch, ordinal und binomial

Liegen mehrere unabhängige Variablen vor, so spricht man von einer multivariaten linearen Regression.

Das lineare Regressionsmodell wird sinnvollerweise verwendet, wenn davon ausgegangen werden kann, dass ein linearer Zusammenhang zwischen der/den unabhängige/n Variable/n und der abhängigen Variable besteht. Dies bedeutet konkret, dass durch die Messergebnisse die nach dem Plotten als Punktewolke in einem Koordinatensystem (mit y auf der Ordinate und x auf der Abszisse) vorliegen gut eine Gerade gelegt werden kann. Dabei sollten die Messergebnisse möglichst nah um diese Gerade verteilt liegen und die Abstände von den Messergebnissen zu der Gerade bei steigenden oder sinkenden x-Werten im Mittel möglichst gleich bleiben. 

Bei der linearen Regression werden im vorhinein folgende Annahmen getroffen: 

  • Die Fehlerterme $\epsilon_1, \epsilon_2, ..., \epsilon_n$ sind normalverteilte Zufallsvariablen mit Erwartungswert 0 ($\mathds{E}(\epsilon_i)=0$) und der Varianz 1 ($\Var(\Epsilon_i)=1$).
  • $\epsilon_1, \epsilon_2, ..., \epsilon_n$ sind unabhängig
  • $\epsilon_i$ und $X_{i,p}$ mit $p=\{1,...,P}$ sind unkorreliert.  

Zu weiteren Erklärungen wie mit ...