Sie zeigen eine alte Version dieser Seite an. Zeigen Sie die aktuelle Version an.

Unterschiede anzeigen Seitenhistorie anzeigen

« Vorherige Version anzeigen Version 38 Nächste Version anzeigen »

Das Lineare RegressionsmodellErläuterung der Problemstellung

Im allgemeinen wird bei der Regressionsanalyse der Zusammenhang zwischen einer abängigen Variable Y und einer (X) oder mehrer unabhängiger Variablen (X1,X2,...,Xk) untersucht. Dieser Zusammenhang kann sich je nach Datenlage und untersuchter Fragestellung der empirischen Arbeit deutlich unterscheiden. In diesem Abschnitt Modellwahl, soll auf die gängigsten Modelle der Regressionsanalyse eingegangen werden. Anhand von bestimmten Kriterien wird erläutert, wann welche Modellierung am besten geeignet ist um den Zusammenhang in den vorliegenden Daten darzustellen. Ausgehend von dem funktionalen Zusammenhang \(Y = f(X,\beta) + \epsilon\), der die abhängige Variable als Funktion von unabhängigen Variablen und zu schätzenden Parametern \(\beta\) zuzüglich eines Fehler- oder Residuenterms \(\epsilon\) ausdrückt. Um zu entscheiden, welches Modell geschätzt werden soll betrachtet man nun zuerst die abhängige Variable Y und kann auf Grund ihres Skalenniveaus eine Vorauswahl an Modellklassen treffen. Als zweiten Schritt betrachtet man den funktionalen Zusammenhang zwischen Y und X, und wählt so die passende Modellklasse aus. Abschließend muss überprüft werden, ob die jeweiligen zusätzlichen Annahmen der gewählten Modellierung erfüllt sind. 

Nach diesem Schema richtet sich auch dieser Wiki-Artikel und unterteilt die vorgestellten Modelle erst anhand des Skalenniveaus der abhängigen Variable und anschließend nach dem funktionalen Zusammenhang der Daten.

 

 

1 metrisches Skalenniveau

lineare Regression

Das lineare Regressionsmodell kann gewählt werden, wenn für die abhängige Variable und für die unabhängige/n Variable/n folgendes Skalenniveau vorliegt:

abhängige Variable (y) metrisch
unabhängige/n Variable/n (x)metrisch, ordinal und binomial

Liegen mehrere unabhängige Variablen vor, so spricht man von einer multiplen Regression.

Das lineare Regressionsmodell wird sinnvollerweise verwendet, wenn davon ausgegangen werden kann, dass ein linearer Zusammenhang zwischen der/den unabhängige/n Variable/n und der abhängigen Variable besteht. Dies bedeutet konkret, dass durch die Messergebnisse, die nach dem Plotten als Punktewolke in einem Koordinatensystem (mit y auf der Ordinate und x auf der Abszisse) vorliegen, gut eine Gerade gefittet werden kann. Dabei sollten die Messergebnisse möglichst nah um diese Gerade verteilt liegen und die Abstände von den Messergebnissen zu der Gerade bei steigenden oder sinkenden x-Werten im Mittel möglichst gleich bleiben. So wird durch eine lineare Regression die abhängige Variable \(y_i \) durch eine oder mehrere unabhängige Variable/n \(x_{i1},...,x_{in}\) erklärt:

\(y_i= \beta_0+ \beta_1 x_{i1}+ ...+ \beta_n x_{in}\)

 \(\beta_1,...,\beta_n\) beschreibt dabei die Steigung der zu fittenden Gerade, \(\beta_0\) den y-Achsenabschnitt. Es ist darauf zu achten, dass die Regressionskoeffizienten \(\beta_i\) mit \(i\in\{0,...,n\}\) nur in erster Potenz vorliegen können, die unabhängigen Variablen allerdings auch in anderen Potenzen in das Modell mit eingehen können.

Bei der linearen Regression werden folgende Annahmen getroffen: 

  • Die Fehlerterme \(\epsilon_1, \epsilon_2, ..., \epsilon_n \) sind normalverteilte Zufallsvariablen mit Erwartungswert 0 (\(E(\epsilon_i)=0\)) und der Varianz \(\sigma^2\) (\(V(\epsilon_i)=\sigma^2\)).
  • \(\epsilon_1, \epsilon_2, ..., \epsilon_n\) sind unabhängig
  • \(\epsilon_i\) und \(x_i\) sind unkorreliert.  

Eine genaue Erklärung zum linearen Regressionsmodell mit Beispielen und ausführlichen Umsetzungen in unterschiedlichen Statistik-Programmen kann man hier finden.

nichtlineare Regression

Auch der nichtlinearen Regression wird wie bei der linearen Regression von einer metrisch skalierten ahängigen Variablen ausgegangen, jedoch ist der funktionale Zusammenhang in dieser Modellklasse nicht mehr linear in den zu schätzenden Paramtetern \(\beta\). Das heißt, auch in nichtlinearen Modellen gilt \(E(Y|X=x) = f(x,\beta)\) aber \(f(x,\beta)\) ist nicht mehr die Identität wie in der linearen Regression. Beispielsweise könnte \(f(x,\beta)={\frac  {\beta _{1}x}{\beta _{2}+x}}\) annehmen. Diese Funktion kann nicht mehr als Linearkombination der beiden \(\beta\) dargestellt werden. Wichtige nichtlineare Funktionen sind Exponentialfunktionen, logarithmische oder auch trigonometrische Funktionen. Bei einigen funktionalen Zusammenhängen gibt es die Möglichkeit durch Transformation wieder ein lineares Regressionsmodell erhalten. Beispielsweise kann aus \(Y=a*\exp{X\beta}*v\) durch logarithmieren der Gleichung

2 kategoriales (diskretes) Skalenniveau

 logistische Regression (Logit-Modell)

Das (binomiale) logistische Regressionsmodell ist durch folgende Gleichung gegeben:

\(P(Y=1|X=x_i) = P(Y_i=1)=\frac{1}{1+exp(-\beta_0-x_{i1}\beta_1-...-x_{in}\beta_n)} \)

 

 

 

 

 

 

 

 

 

  • Keine Stichwörter