Versionen im Vergleich

Schlüssel

  • Diese Zeile wurde hinzugefügt.
  • Diese Zeile wurde entfernt.
  • Formatierung wurde geändert.

Erläuterung der Problemstellung

Im allgemeinen wird bei der Regressionsanalyse der Zusammenhang zwischen einer abängigen Variable Y und einer (X) oder mehrer unabhängiger Variablen (X1,X2,...,Xk) untersucht. Dieser Zusammenhang kann sich je nach Datenlage und untersuchter Fragestellung der empirischen Arbeit deutlich unterscheiden. In diesem Abschnitt Wahl der Modellklasse, soll auf die gängigsten Modelle der Regressionsanalyse eingegangen werden. Anhand von bestimmten Kriterien wird erläutert, wann welche Modellierung am besten geeignet ist um den Zusammenhang in den vorliegenden Daten darzustellen. Ausgehend von dem funktionalen Zusammenhang \(Y = f(X,\beta) + \epsilon\), der die abhängige Variable als Funktion von unabhängigen Variablen und zu schätzenden Parametern \(\beta\) zuzüglich eines Fehler- oder Residuenterms \(\epsilon\) ausdrückt. Um zu entscheiden, welches Modell geschätzt werden soll betrachtet man nun zuerst die abhängige Variable Y und kann auf Grund ihres Skalenniveaus eine Vorauswahl an Modellklassen treffen. Als zweiten Schritt betrachtet man den funktionalen Zusammenhang zwischen Y und X, und wählt so die passende Modellklasse aus. Abschließend muss überprüft werden, ob die jeweiligen zusätzlichen Annahmen der gewählten Modellierung erfüllt sind. 

Nach diesem Schema richtet sich auch dieser Wiki-Artikel und unterteilt die vorgestellten Modelle erst anhand des Skalenniveaus der abhängigen Variable und anschließend nach dem funktionalen Zusammenhang der Daten.

 

 

1 stetige abhängige Variable

lineare Regression

Das lineare Regressionsmodell kann gewählt werden, wenn für die abhängige Variable und für die unabhängige/n Variable/n folgendes Skalenniveau vorliegt:

abhängige Variable (y) metrisch
unabhängige/n Variable/n (x)metrisch, ordinal und nominal

Liegen mehrere unabhängige Variablen vor, so spricht man von einer multiplen Regression.

Das lineare Regressionsmodell wird sinnvollerweise verwendet, wenn davon ausgegangen werden kann, dass ein linearer Zusammenhang zwischen der/den unabhängige/n Variable/n und der abhängigen Variable besteht. Dies bedeutet konkret, dass durch die Messergebnisse, die nach dem Plotten als Punktewolke in einem Koordinatensystem (mit y auf der Ordinate und x auf der Abszisse) vorliegen, gut eine Gerade gefittet werden kann. Dabei sollten die Messergebnisse möglichst nah um diese Gerade verteilt liegen und die Abstände von den Messergebnissen zu der Gerade bei steigenden oder sinkenden x-Werten im Mittel möglichst gleich bleiben. So wird durch eine lineare Regression die abhängige Variable \(y_i \) durch eine oder mehrere unabhängige Variable/n \(x_{i,2},...,x_{i,p}\) erklärt:

\(y_i= \beta_1+ \beta_2 x_{i,2}+ ...+ \beta_p x_{i,p}\+ \epsilon_i\)

In Matrixschreibweise erhält man:

\( \begin{pmatrix} y_1\\y_2\\ \vdots \\y_n \end{pmatrix} = \begin{pmatrix} 1 & x_{1,2} & ... & x_{1,p}\\1 & x_{2,2}&...&x_{2,p}\\ \vdots &\vdots&\ddots &\vdots \\1 & x_{n,2}&...&x_{n,p}\ \end{pmatrix} \begin{pmatrix} ß_1\\ß_2\\ \vdots \\ß_p \end{pmatrix}+\begin{pmatrix} \epsilon_1\\\epsilon_2\\ \vdots \\ \epsilon_n \end{pmatrix} \)

 \(\beta_2,...,\beta_p\) beschreibt dabei die Steigung der zu fittenden Gerade, \(\beta_1\) den y-Achsenabschnitt. Es ist darauf zu achten, dass die Regressionskoeffizienten \(\beta_i\) mit \(i\in\{1,...,p\}\) nur in erster Potenz vorliegen können, die unabhängigen Variablen allerdings auch in anderen Potenzen in das Modell mit eingehen können.

 

Bei der linearen Regression werden folgende Annahmen getroffen: 

  • Die Fehlerterme \(\epsilon_1, \epsilon_2, ..., \epsilon_n \) sind normalverteilte Zufallsvariablen mit Erwartungswert 0 (\(E(\epsilon_i)=0\)) und der Varianz \(\sigma^2\) (\(V(\epsilon_i)=\sigma^2\)).
  • \(\epsilon_1, \epsilon_2, ..., \epsilon_n\) sind unabhängig
  • \(\epsilon_i\) und \(x_i\) sind unkorreliert.  

Eine genaue Erklärung zum linearen Regressionsmodell mit Beispielen und ausführlichen Umsetzungen in unterschiedlichen Statistik-Programmen kann man hier finden.

Beziehung der linearen Regression zur Anova

Die Vorraussetzungen für die einfaktoriellen ANOVA entsprechen genau den Annahmen, die wir für das lineare Regressionsmodell treffen (siehe vorherigen Abschnitt). Bei der einfaktoriellen ANOVA wird darauf getestet, dass die Mittelwerte gleich sind. Die Nullhypothese lautet also \( H_0: \mu_{1}=\mu_{2}=...=\mu_{p}\). Der Test auf diese Nullhypothese mittels ANOVA ist ein Spezialfall des F-test (dient der Überprüfung der Gesamtsignifikanz des Modellslinearen Regressionsmodells), gilt ist \(\beta_i=0 \forall i\in \{ß_1,ß_2,...ß_p\}\)  erfüllt so entspricht der F-test der ANOVA.

 

nichtlineare Regression

Die lineare und nichtlineare Regression unterscheiden sich nicht in den Skalenniveaus der verwendeten Variablen.

abhängige Variable (y) metrisch
unabhängige/n Variable/n (x)metrisch, ordinal und nominal

Auch der nichtlinearen Regression wird wie bei der linearen Regression von einer metrisch skalierten ahängigen Variablen ausgegangen, jedoch ist der funktionale Zusammenhang in dieser Modellklasse nicht mehr linear in den zu schätzenden Paramtetern \(\beta\). Das heißt, auch in nichtlinearen Modellen gilt \(E(Y|X=x) = f(x,\beta)\) aber \(f(x,\beta)\) entspricht nicht mehr der Identität, wie in der linearen Regression. Beispielsweise könnte \(f(x,\beta)={\frac  {\beta _{1}x}{\beta _{2}+x}}\) annehmen. Diese Funktion kann nicht mehr als Linearkombination der beiden \(\beta\) dargestellt werden. Wichtige nichtlineare Funktionen sind Exponentialfunktionen, logarithmische oder auch trigonometrische Funktionen.

Ein Eindruck der Beziehung zwischen X und Y kann wie beim linearen Modell durch Scatterplots gewonnen werden. Streuen die Punkte nicht um eine Gerade kann das auf ein nichtlineares Modell hindeuten. Es muss jedoch beachtet werden, dass auch ein Plot,der mit dem linearen Modell \(y_i=\beta_0+\beta_1x_{i1}+\beta_2x_{i1}^2\) beschrieben werden kann, eine nichtlineare Beziehung zwischen \(Y\) und \(X_1\) anzeigt. Es sei deshalb noch einmal darauf hingewiesen, dass sich der Begriff "nichtlinear" auf die zu schätzenden Parameter bezieht, nicht auf die erklärenden Variablen.

Bei einigen funktionalen Zusammenhängen gibt es die Möglichkeit durch Transformation wieder ein lineares Regressionsmodell zu erzeugen. Beispielsweise kann aus \(Y=a\exp{(X\beta)}v\) durch logarithmieren der Gleichung \(\ln(Y) = \ln(a) + X\beta + \epsilon\) , mit \(\epsilon=\ln(v)\) erzeugt werden. Wichtig ist es zu beachten, dass diese Transformationenn auch die Fehlerterme \(\epsilon\) betreffen. Allgemeine Modellannahmen der linearen Regression bezüglich der Fehler müssen geprüft werden.

2 kategoriale abhängige Variable

Bei kategorial skalierten abhängigen Variablen \(Y\) kommen meist generalisierte lineare Modelle zur Anwendung. Eine wichtige Annahme des linearen Regressionsmodells, Normalverteilungsannahme der Störterme ist in Modellen mit diskreten erklärten Variablen nicht  immer gerechtfertigt. Bei Modellen der generalisierten linearen Klasse kann die Verteilung der Fehlerterme auch zu anderen Verteilungen der exponentiellen Familie gehören. Das heißt sie können unter anderem normal-, binomial-, bernouli-, oder poissonverteilt sein.

 logistische Regression (Logit-Modell)

Bei der logistischen Regression können die unabhängige/n Variable/n Variablen jedes beliebige Skalenniveau annehmen und müssen auch nicht innerhalb der einzelnen unabhängigen Variablen \(x_1,...,x_p\) einheitlich sein. Die abhängige Variable nimmt allerdings nur diskrete Werte an. Meist liegt die abhängige Variable binomial vor, d.h. es treten nur zwei unterschiedliche Ausprägungen "0" und "1" auf. Falls allerdings die abhängige Variable multinomial vorliegt (es treten mehr als zwei unterschiedliche Ausprägungen auf), kann eine verallgemeinerte Version, das multinomiale logistische Regressionsmodell verwendet werden.

abhängige Variable (y) binomial (multinomial)
unabhängige/n Variable/n (x)beliebiges Skalenniveau (die Skalenniveaus der einzelnen \(x_1,...,x_p\) dürfen sich auch unterscheiden, liegt eine multinomiale Variable vor, so muss eine Zerlegung in Dummy-Variablen stattfinden)

Ein Fragestellung bei der sich eine logistischer Regression anbieten würde, wäre beispielsweise die Frage, welche Faktoren die Wahrscheinlichkeit erhöhen, dass eine Person eine Arbeitsstelle hat. In diesem Fall würde man als abhängige binomiale  0-1 kodierte Variable erhalten, wobei 1 für Erwerbstätigkeit und 0 für Arbeitslosigkeit steht. 

Das Ziel der logistischen Regression ist die Vorhersage der Wahrscheinlichkeit mit der ein bestimmtes Ereigniss eintritt.

Das (binomiale) logistische Regressionsmodell ist durch folgende Gleichung gegeben:

\(P(Y=1|X=x_i) = P(Y_i=1)=\frac{exp(\beta_0+x_{i1}\beta_1+...+x_{ip}\beta_p)}{1+exp(\beta_0+x_{i1}\beta_1+...+x_{ip}\beta_p)}=\frac{1}{1+exp(-\beta_0-x_{i1}\beta_1-...-x_{ip}\beta_p)} \)

Probitmodell

Wie bei der logistischen Regression, geht man von einer dichotomen (\(Y_i|x_{( i )}\sim\mathcal{Ber}(p_i)\)) oder auch multinomialen abhängigen Variable aus. Der Unterschied zwischen den beiden Modellen liegt in der Annahme über die Verteilung der Fehlerterme \(\epsilon\), denn im Probitmodell werden standardnormalverteilte Residuen angenommen. Im allgemeinen motoviert man ein Probitmodell über die Annahme einer latenten Zufallsvariable \(Y^*_i\) mit \(Y^*_i=x'_{( i )}\beta+\epsilon_i\) mit \(\epsilon_i\sim\mathcal{N}(0,1)\). Dann kann die beobachtete dichotome abhängige Variable als Indikator dafür betrachtet werden, ob \(Y^*_i\) größer als null ist. Aus dieser Herangehensweise ergibt sich:

\(P(Y_i=1|X_i=x_{( i )})=p_i=\Phi (x'\beta)\)

Auch das Probitmodell wird über die Maximum-Likelihood-Methode berechnet, wobei es keine analytische Lösung der Gleichungen gibt und sie beispielsweise mit dem Newton-Raphson Verfahren näherungsweise gelöst werden.

 

 

3 Analyse von Zähldaten