Nach diesem Schema richtet sich auch dieser Wiki-Artikel und unterteilt die vorgestellten Modelle erst anhand des Skalenniveaus der abhängigen Variable und anschließend nach dem funktionalen Zusammenhang der Daten.
1 stetige abhängige Variable
lineare Regression
Das lineare Regressionsmodell kann gewählt werden, wenn für die abhängige Variable und für die unabhängige/n Variable/n folgendes Skalenniveau vorliegt:
abhängige Variable (y) | metrisch |
unabhängige/n Variable/n (x) | metrisch, ordinal und nominal |
Liegen mehrere unabhängige Variablen vor, so spricht man von einer multiplen Regression.
Durch eine lineare Regression die abhängige Variable \(y_i \) durch eine oder mehrere unabhängige Variable/n \(x_{i,2},...,x_{i,p}\) erklärt:$$y_i= \beta_1+ \beta_2 x_{i,2}+ ...+ \beta_p x_{i,p} + \epsilon_i$$ In Matrixschreibweise erhält man:$$ \begin{pmatrix} y_1\\y_2\\ \vdots \\y_n \end{pmatrix} = \begin{pmatrix} 1 & x_{1,2} & ... & x_{1,p}\\1 & x_{2,2}&...&x_{2,p}\\ \vdots &\vdots&\ddots &\vdots \\1 & x_{n,2}&...&x_{n,p}\ \end{pmatrix} \begin{pmatrix} ß_1\\ß_2\\ \vdots \\ß_p \end{pmatrix}+\begin{pmatrix} \epsilon_1\\\epsilon_2\\ \vdots \\ \epsilon_n \end{pmatrix} $$ \(\beta_2,...,\beta_p\) beschreibt dabei die Steigung der zu fittenden Gerade, \(\beta_1\) den y-Achsenabschnitt. Es ist darauf zu achten, dass die Regressionskoeffizienten \(\beta_i\) mit \(i\in\{1,...,p\}\) nur in erster Potenz vorliegen können, die unabhängigen Variablen allerdings auch in anderen Potenzen in das Modell mit eingehen können.
Wann wird das lineare Regressionsmodell gewählt?
Das lineare Regressionsmodell wird gewählt, wenn davon ausgegangen werden kann, dass ein linearer Zusammenhang zwischen der/den unabhängige/n Variable/n und der abhängigen Variable besteht.
In den meisten Fällen erkennt man diesen linearen Zusammenhang dadurch, dass durch die Punktewolke der Messergebnisse im Scatterplot gut eine Gerade gefittet werden kann. Dabei sollten die Messergebnisse möglichst nah um diese Gerade verteilt liegen und die Abstände von den Messergebnissen zu der Gerade bei steigenden oder sinkenden x-Werten im Mittel möglichst gleich bleiben. Aber auch in anderen Fällen, wo im Scatterplot nicht direkt ein lineare Zusammenhang festgestellt werden kann, kann die lineare Regression angewandt werden. So lässt sich auch auf folgenden Zusammenhang die lineare Regression anwenden: \(y_i=\beta_1+\beta_2 x_{i2}^{2}\). in diesem Fall würde die Verteilung der Punkte im Scatterplot einen quadratischen Zusammenhang nahelegen. Der Grund dafür, dass dieser Zusammenhang auch mittels linearer Regression beschrieben werden kann, ist das die unabhängige/n Variable/n auch in Potenzen verschieden von 1 vorliegen können (hier: \(x_{i2}^{2}\)). Die Linearität bezieht sich folglich nur auf die Regressionskoeffizienten \(\beta_i\) mit \(i\in\{1,...,p\}\).
Bei der linearen Regression werden folgende Annahmen getroffen:
- Die Fehlerterme \(\epsilon_1, \epsilon_2, ..., \epsilon_n \) sind normalverteilte Zufallsvariablen mit Erwartungswert 0 (\(E(\epsilon_i)=0\)) und der Varianz \(\sigma^2\) (\(V(\epsilon_i)=\sigma^2\)).
- \(\epsilon_1, \epsilon_2, ..., \epsilon_n\) sind unabhängig
- \(\epsilon_i\) und \(x_i\) sind unkorreliert.
Eine genaue Erklärung zum linearen Regressionsmodell mit Beispielen und ausführlichen Umsetzungen in unterschiedlichen Statistik-Programmen kann man hier finden.
Beziehung der linearen Regression zur Anova
Die Vorraussetzungen für die einfaktoriellen ANOVA entsprechen genau den Annahmen, die wir für das lineare Regressionsmodell treffen (siehe vorherigen Abschnitt). Bei der einfaktoriellen ANOVA wird darauf getestet, ob die Mittelwerte der Gruppen (bezüglich des Faktors) gleich sind. Die Nullhypothese lautet also \( H_0: \mu_{1}=\mu_{2}=...=\mu_{p}\). Der Test auf diese Nullhypothese mittels ANOVA ist ein Spezialfall des F-Tests (dient der Überprüfung der Gesamtsignifikanz des linearen Regressionsmodells): Ist \(\beta_i=0 \forall i\in \{1,2,...,p\}\) erfüllt, so entspricht der F-Test genau der ANOVA.
nichtlineare Regression
Die lineare und nichtlineare Regression unterscheiden sich nicht in den Skalenniveaus der verwendeten Variablen.
abhängige Variable (y) | metrisch |
unabhängige/n Variable/n (x) | metrisch, ordinal und nominal |
Auch der nichtlinearen Regression wird wie bei der linearen Regression von einer metrisch skalierten ahängigen Variablen ausgegangen, jedoch ist der funktionale Zusammenhang in dieser Modellklasse nicht mehr linear in den zu schätzenden Paramtetern \(\beta\). Das heißt, auch in nichtlinearen Modellen gilt \(E(Y|X=x) = f(x,\beta)\) aber \(f(x,\beta)\) entspricht nicht mehr der Identität, wie in der linearen Regression. Beispielsweise könnte \(f(x,\beta)={\frac {\beta _{1}x}{\beta {2}+x}}\) annehmen. Diese Funktion kann nicht mehr als Linearkombination der beiden \(\beta_i, i=1,2\) dargestellt werden. Wichtige nichtlineare Funktionen sind Exponentialfunktionen, logarithmische oder auch trigonometrische Funktionen.
Ein Eindruck der Beziehung zwischen X und Y kann wie beim linearen Modell durch Scatterplots gewonnen werden. Streuen die Punkte nicht um eine Gerade kann das auf ein nichtlineares Modell hindeuten. Es muss jedoch beachtet werden, dass auch ein Plot,der mit dem linearen Modell \(y_i=\beta_0+\beta_1x_{i1}+\beta_2x_{i1}^2\) beschrieben werden kann, eine nichtlineare Beziehung zwischen \(Y\) und \(X_1\) anzeigt. Es sei deshalb noch einmal darauf hingewiesen, dass sich der Begriff "nichtlinear" auf die zu schätzenden Parameter bezieht, nicht auf die erklärenden Variablen.
Bei einigen funktionalen Zusammenhängen gibt es die Möglichkeit durch Transformation wieder ein lineares Regressionsmodell zu erzeugen. Beispielsweise kann aus \(Y=a\exp{(X\beta)}v\) durch logarithmieren der Gleichung \(\ln(Y) = \ln(a) + X\beta + \epsilon\) , mit \(\epsilon=\ln(v)\) erzeugt werden. Wichtig ist es zu beachten, dass diese Transformationenn auch die Fehlerterme \(\epsilon\) betreffen. Allgemeine Modellannahmen der linearen Regression bezüglich der Fehler müssen geprüft werden.
2 kategoriale abhängige Variable
Bei kategorial skalierten abhängigen Variablen \(Y_i\) kommen meist generalisierte lineare Modelle zur Anwendung. Eine wichtige Annahme des linearen Regressionsmodells, Normalverteilungsannahme der Störterme ist in Modellen mit diskreten erklärten Variablen nicht immer gerechtfertigt. Bei Modellen der generalisierten linearen Klasse kann die Verteilung der Fehlerterme auch zu anderen Verteilungen der exponentiellen Familie gehören. Das heißt sie können unter anderem normal-, binomial-, bernoulli-, oder poissonverteilt sein.
2.1 dichotome oder multinomiale abhängige Variable
Wenn die abhängige Variable, die untersucht werden soll kategorial skaliert ist, jedoch keine aufsteigende Reihenfolge der Kategorien gebildet werden kann (z.B. Geschlecht, Präferenz einer Automarke) spricht man von nominalem Skalenniveau. Die gängigsten Methoden zu Umgang mit solchen Variablen finden sich im folgenden Abschnitt.
logistische Regression (Logit-Modell)
Bei der logistischen Regression können die unabhängige/n Variable/n Variablen jedes beliebige Skalenniveau annehmen und müssen auch nicht innerhalb der einzelnen unabhängigen Variablen \(x_1,...,x_p\) einheitlich sein. Die abhängige Variable nimmt allerdings nur diskrete Werte an. Meist liegt die abhängige Variable binomial (\(Y_i|x_{( i )}\sim\mathcal{Ber}(p_i)\)) vor, d.h. es treten nur zwei unterschiedliche Ausprägungen "0" und "1" auf. Falls allerdings die abhängige Variable multinomial (\(Y_i|x_{( i )}\sim\operatorname{Categorical}(p_{i,1},\dots,p_{i,m})\)) vorliegt (es treten mehr als zwei unterschiedliche Ausprägungen auf), kann eine verallgemeinerte Version, das multinomiale logistische Regressionsmodell verwendet werden.
abhängige Variable (y) | dichotom (binomial), multinomial |
unabhängige/n Variable/n (x) | beliebiges Skalenniveau (die Skalenniveaus der einzelnen \(x_1,...,x_p\) dürfen sich auch unterscheiden, liegt eine multinomiale Variable vor, so muss eine Zerlegung in Dummy-Variablen stattfinden) |
Ein Fragestellung bei der sich eine logistischer Regression anbieten würde, wäre beispielsweise, welche Faktoren die Wahrscheinlichkeit erhöhen, dass eine Person eine Arbeitsstelle hat. In diesem Fall würde man als abhängige binomiale 0-1 kodierte Variable erhalten, wobei 1 für Erwerbstätigkeit und 0 für Arbeitslosigkeit steht.
Das Ziel der logistischen Regression ist die Vorhersage der Wahrscheinlichkeit mit der ein bestimmtes Ereigniss eintritt.
Das (binomiale) logistische Regressionsmodell ist durch folgende Gleichung gegeben:
Inhalt |
---|
Die Parameter \(\beta_i\) werden mit der Maximum-Likelihood-Methode geschätzt, da eine direkte Berechnung mittels kleinster Quadrate (siehe lineare Regression) nicht möglich ist. Die Schätzwerte werden anhand iterativer Verfahren wie dem Newton-Raphson Algoritmus ermittelt. Da die log-Likelihood Funktion des logistischen Regressionsmodells überall konkav ist, exisitiert ein eindeutiger Maximum-Likelihood Schätzer für die zu bestimmenden Parameter.
Die Interpretation der marginalen Effekte der unabhängigen Variable auf die unabhängige unterscheidet sich deutlich vom linearen Regressionsmodel. Da eine sogenannte Linkfunktion die Verbindung zwischen \(x_{( i )}\) und \(y_i\) herstellt, entsprechen die marginalen Effekte dem Produkt aus geschätztem Parameter und Wahrscheinlichkeitsdichte des Modells:
$$\frac{\partial P(y_i=1|X=x_{( i )})}{\partial x_j}=g(x_{( i )}\prime\beta)\beta_j,$$
wobei \(g(z)=\frac{\partial G(z)}{\partial z}\). Die marginalen Effekte sind also immer von den Ausprägungen aller unabhängigen Variablen ahängig. Da Wahrscheinlichkeitsdichten immer positiv sind, gibt das Vorzeichen des geschätzten Parameters die Richtung des marginalen Effekts an.
Da die marginalen Effekte nicht konstant und deshalb keiner so direkten Interpretation wie im linearen Modell zugänglich sind, werden oft die sogenannten Odds oder die Oddsratio betrachtet. unaghängig gleichverteilt sind \primeprime\n p motoviert wiklich Pramteters )\) als gemeinsam normalverteilt (möglicherweise paarweise korreliert angenommen). Handelt es sich bei der Varianz-Kovarianzmatrix um die Einheitsmatrix, spricht man vom unahängigen Probitmodell.
2.2 ordinale folgenden mögliche zustätzliche übergangen Unteschied Auprägungen was für ein lineares Modell Voraussetzung
y)
Ausgehend von einer metrischen, nicht beobachtbaren (latenten) Variable \(y^*\) mit Modell: \(y^*_i=x\prime_i\beta+\epsilon_i, \epsilon_i|x_{( i )}\sim\mathcal{N}(0,1) i.i.d. i=1,\dots,n\) geht man von folgender Beziehung zur vorliegenden abhängigen Variable (mit endlichen Anzahl an Kategorien (J + 1)) aus:
$$y_i={\begin{cases}0\ ,&{\text{für}}&-\infty<y^*_i\leq\mu_1\ ,\\1\ ,&{\text {für}}&\mu_1<y^*_i\leq\mu_2\ ,\\&\vdots\\J\ ,&{\text{für}}&\mu_J<y^*_i\leq\infty\end{cases}}$$
Dabei stehen \(\mu_j\) für geordnete Schwellenwerte, die neben den \(\beta\)s die zu schätzenden Paramteter des Modells darstellen. Nimmt man nun an \(\mu_0=-\infty\) und \(\mu_{J+1}=\infty\) kann die die Wahrscheinlichkeit des Eintretens der jeweiligen Kategorie abhängig von den erklärenden Variablen dargestellt werden mit:
$$p_{ij}=P(y_i=j|x_{( i )})=P(\mu_j<y^*_i\leq\mu_{j+1}|x_{( i )})=P(\mu_j<x\prime_{( i )}\beta+\epsilon_i\leq\mu_{j+1}|x_{( i )})=P(\mu_j-x\prime_{( i )}\beta<\epsilon_i\leq\mu_{j+1}-x\prime_{( i )}\beta|x_{( i )})=\Phi(\mu_{j+1}-x\prime_{( i )}\beta)-\Phi(\mu_j-x\prime_{( i )}\beta)$$
Dabei steht \(\Phi(\cdot)\) für die kumulierte Standardnormalverteilung. Aus Identifikationsgründen darf in der Designmatrix (Matrix der erklärenden Variablen) keine Konstante enthalten sein. Wäre das der Fall könnten die Schwellenwerte davon nicht unterschieden werden und sie blieben dadurch unidentifiziert. Die Parameter werden durch die Maximum-Likelihood Methode geschätzt, wobei die log-Likelihood überall konkav ist. Dadurch ist ein eindeutiger ML-Schätzer bestimmt. Die ML-Schätzer sind hierbei konsistent, asymptotisch effizient und asymptotisch normalverteilt. Die Interpretation der marginalen Wahrscheinlichkeitseffekte gestaltet sich etwas schwieriger, als in einem Multinomialen Modell. Der Effekt hängt sowohl vom geschätzten Parameter, als auch von der Differenz von Wahrscheinlichkeitsdichten ab. Auch das Vorzeichen des Effekts lässt sich nur im Falle der ersten oder letzten Kategorie eindeutig über das Vorzeichen des jeweiligen Schätzers bestimmen. Im allgemeinen Fall gilt: \(\frac{\partial p_{ij}}{\partial x_{ik}}=\beta_k(\phi\beta)-\phi(), wobei \(\phi(\cdot)\) für die Wahrscheinlichkeitsdichte der Standardnormalverteilung steht.
Geordnete logistische Regression
abhängige Variable (y) | ordinal (Reihenfolge in Ausprägungen liegt vor) |
unabhängige/n Variable/n (x) | beliebiges Skalenniveau (die Skalenniveaus der einzelnen \(x_1,...,x_p\) dürfen sich auch unterscheiden, liegt eine multinomiale Variable vor, so muss eine Zerlegung in Dummy-Variablen stattfinden) |
Die geordnete logistische Regression folgt den gleichen Überlegungen wie die geordnete Probitregression. Der Unterschied liegt in der Annahme über die Verteilung der Fehlerterme, denn sie werden wie im binomialen oder multinomialen (siehe oben) Fall als logistisch verteilt angenommen. Daraus ergibt sich für die bedingten Wahrscheinlichkeiten der jeweiligen Kategorien:
$$p_{ij}=\Lambda(\mu_{j+1}-x\prime_{( i )}\beta)-\Lambda(\mu_j-x\prime_{( i )}\beta),$$
wobei \(\Lambda(\cdot)\) für die kumulierte Verteilungsfunktion der logistischen Verteilung steht. Auch hier gilt, dass keine Konstante im Modell entahlten sein darf, da die Schwellenwerte \(\mu_j\) sonst nicht zu identifizieren sind. Die Schätzung und Interpretation der Parameter läuft analog zur Probitregression.
3 Analyse von Zähldaten
In Zähldatenmodellen liegt die abhängige Variable diskret vor und nimmt nur nichtnegative Werte an (\(y_i\in\mathbb{N_0}\)). Derartige Modelle geben an, wie oft ein Ereigniss von Interesse innerhalb eines Zeitraums aufgetreten ist. Beispiele für Daten, die mit einem Zähldatenmodell untersucht werden können sind die Anzahl der Patente, die von einer Firma im Jahr angemeldet werden, oder die Anzahl der Kinder, die in einem Monat in einer Stadt geboren werden. Obwohl es sich um quantitative Daten handelt ist die Modellierung mit bedingten Wahrscheinlichkeiten angebrachter, als mit bedingen Erwartungswerten (\(E(y_i|x_{( i )})=x\prime_{( i)}\beta\)). Letztere können unter Umständen negative Vorhersagen produzieren, was nicht sinnvoll ist, wenn \(y_i\) nur nichtnegative Werte annehmen kann. Dadurch ist ein lineares Regressionsmodell mit kleinster Quadrate Schätzung ungeeignet für diesen Datentypus. Im folgenden werden die gängigsten Modelle für Zähldaten vorgestellt.
Poisson Regression
Die Poissionverteilung ist folgendermaßen definiert: $$P(Y=k)=\frac{\lambda^k}{k!} e^{-\lambda} \vspace{2} \text{für} k=0,1,2,... \text{ und } \lambda>0 $$