Sie zeigen eine alte Version dieser Seite an. Zeigen Sie die aktuelle Version an.

Unterschiede anzeigen Seitenhistorie anzeigen

« Vorherige Version anzeigen Version 14 Nächste Version anzeigen »

Die logistische Regression ist ein Modell, bei der die abhängige Variable dichotom ist, d.h. nur zwei Werte annehmen kann ("0" und "1" oder "Erfolg" und "Misserfolg"). Sie ist folglich binomial verteilt (\(Y_i|x_{( i )}\sim\mathcal{Ber}(p_i)\)). Die Fehlerterme werden bei diesem Modell als logistisch verteilt angenommen. Falls allerdings die abhängige Variable multinomial (\(Y_i|x_{( i )}\sim\operatorname{Categorical}(p_{i,1},\dots,p_{i,m})\)) vorliegt (es treten mehr als zwei unterschiedliche Ausprägungen auf), kann eine verallgemeinerte Version, das multinomiale logistische Regressionsmodell verwendet werden.

Inhaltsverzeichnis

Variablen und deren Zusammenhang

Bei der logistischen Regression können die unabhängige/n Variable/n Variablen jedes beliebige Skalenniveau annehmen und müssen auch nicht innerhalb der einzelnen unabhängigen Variablen \(x_1,...,x_p\) einheitlich sein.

abhängige Variable (y) dichotom (binomial), multinomial
unabhängige/n Variable/n (x)beliebiges Skalenniveau (die Skalenniveaus der einzelnen \(x_1,...,x_p\) dürfen sich auch unterscheiden, liegt eine multinomiale Variable vor, so muss eine Zerlegung in Dummy-Variablen stattfinden)

Ein Fragestellung bei der sich eine logistischer Regression anbieten würde, wäre beispielsweise, welche Faktoren die Wahrscheinlichkeit beeinflussen, dass eine Person Raucher ist. In diesem Fall würde man als abhängige Variable eine binomiale  0-1 kodierte Variable verwenden, wobei 1 für Raucher und 0 für Nichtraucher steht. 

Das Ziel der logistischen Regression ist die Vorhersage der Wahrscheinlichkeit mit der ein bestimmtes Ereignis (unter Verwendung von Einflussfaktoren) eintritt.

Einführung in das Bespiel: Rauchen und Nettoeinkommen

Die Variable, mit der untersucht werden soll, ob sie einen Einfluss auf den Status "Raucher" hat, ist metrisch skaliert und misst das Nettoeinkommen. Die Variablen entstammen dem Datensatz Umfragedaten_v1_an. Das Nettoeinkommen wird in Euro pro Monat gemessen und der Status ist binär (0 für Nichtraucher und 1 für Raucher). Meistens unterliegt einer statistischen Fragestellung eine theoretische Hypothese. In diesem Beispiel soll folgende Hypothese überprüft werden:

Hypothese: Personen aus oberen Gesellschaftsschichten, also mit einem höheren Nettoeinkommen, rauchen weniger.

Für einen ersten Überblick über die beiden Variablen bieten sich für das entsprechende Skalenniveau passende Maße an. Bei metrischen Variablen können dies z.B. der Mittelwert oder der Median sowie das Minimum und das Maximum sein. In diesem Fall beträgt der Mittelwert 1569.513 Euro und der Median 1300 Euro.

Auch bei der binären Variable lässt sich ein Mittelwert berechnen. Dieser beträgt im Beispiel 0.294. Dies ist interpretierbar als der Anteil an Rauchern. In diesem Datensatz rauchen folglich 29.4% der Befragten.

Um einen ersten Überblick über den Zusammenhang der beiden Variablen zu bekommen, ist es auch hier möglich, sich einen Scatterplot anzuschauen:


Aufbau und Interpretation der logistischen Regression

Das (binomiale) logistische Regressionsmodell ist durch folgende Gleichung gegeben:

$$P(y_i=1|X=x_{( i )})=G(x_{( i )}\prime\beta)=p_i=\frac{exp(\beta_1+x_{i,2}\beta_2+...+x_{i,p}\beta_p)}{1+exp(\beta_1+x_{i,2}\beta_2+...+x_{i,p}\beta_p)}=\frac{1}{1+exp(-\beta_1-x_{i,2}\beta_2-...-x_{i,p}\beta_p)},\forall i\in\{1,\dots,n\} $$

Die Parameter \(\beta_i\) werden mit der Maximum-Likelihood-Methode geschätzt, da eine direkte Berechnung mittels kleinster Quadrate (siehe lineare Regression) nicht möglich ist. Die Schätzwerte werden anhand iterativer Verfahren wie dem Newton-Raphson Algorithmus ermittelt. Da die log-Likelihood Funktion des logistischen Regressionsmodells überall konkav ist, exisitiert ein eindeutiger Maximum-Likelihood Schätzer für die zu bestimmenden Parameter.

Durch Umformung der obigen Gleichung erhält man die sogenannten Logits (\(\text{ln}\left(\frac{p_i}{1-p_i}\right)\)). In dem Beispiel sieht das wie folgt aus:

Hier soll der Zusammenhang zwischen Nettoeinkommen in Euro pro Monat (\(NETTO\)) und der Wahrscheinlichkeit, Raucher zu sein (\(p\)), erklärt werden:

Modell: \(\text{ln}\left(\frac{p_i}{1-p_i}\right)=\beta_0 + \beta_1 \cdot NETTO_i\)

Die Interpretation der marginalen Effekte dieser Modellklasse unterscheidet sich deutlich vom linearen Regressionsmodel. Die marginalen Effekte der Logitregression entsprechen dem Produkt aus geschätztem Parameter und Wahrscheinlichkeitsdichte des Modells:

$$\frac{\partial P(y_i=1|X=x_{( i )})}{\partial x_j}=g(x_{( i )}\prime\beta)\beta_j,$$

wobei \(g(z)=\frac{\partial G(z)}{\partial z}\). Die marginalen Effekte sind also immer von den Ausprägungen aller unabhängigen Variablen ahängig. Da Wahrscheinlichkeitsdichten immer positiv sind, gibt das Vorzeichen des geschätzten Parameters die Richtung des Effekts auf die bedingte Wahrscheinlichkeit an.

Da die marginalen Effekte nicht konstant und deshalb keiner so direkten Interpretation wie im linearen Modell zugänglich sind, werden oft die sogenannten Odds oder die Oddsratio betrachtet. Dabei werden die Odds (für ein kleines Modell mit zwei zu schätzenden Parametern) als \(\text{odds}=exp(\beta_0+\beta_1x)\) und die Oddsratio als

\[\text{OR}=\frac{\text{odds}(x+1)}{\text{odds}(x)}=\frac{\frac{G(x+1)}{1-G(x+1)}}{\frac{G(x)}{1-G(x)}}=\frac{exp(\beta_0+\beta_1(x+1))}{exp(\beta_0+\beta_1x)}=exp(\beta_1),\;\;\text{wobei}\;G(x)=\frac{exp(\beta_0+\beta_1x)}{1+exp(\beta_0+\beta_1x)}\]

dargestellt. Zieht man den Logarithmus von dieser Gleichung, wird unser Modell linear in den Koeffizienten und man kann die gewohnte Interpretation wie in der linearen Regression anwenden. Wird \(x_1\) ceteris paribus um eine Einheit erhöht (alle anderen erklärenden Variablen verbleiben auf dem alten Wert), verändert sich die Oddsratio um \(exp(\beta_1)\), also um \(\beta_1\cdot 100\%\). Inhaltlich stellen die Odds die Chance oder eine Risiko dar. In unserem Beispiel wäre dies das "Risiko", Raucher zu sein. Die Koeffizienten geben dann an, um wieviel Prozent sich das Risiko oder Chance erhöht, wenn man eine der unabhängigen Variablen um eine Einheit erhöht (ceteris paribus).

Hat die abhängige Variable mehr als zwei Ausprägungen (J + 1), ist also multinomial skaliert wird das multinomiale Logitmodell verwendet. Wenn die Fehlerterme unaghängig und gleichverteilt sind nach der Gumbel Verteilung, ergibt sich als Modellgleichung für die Wahrscheinlichkeit, dass \(y_i\) die Ausprägung j annimmt:

$$P(y_i=j|X=x_{( i)})=p_{ij}=\frac{exp(x_{( i )}\prime\beta_j)}{1+\sum_{h=1}^J exp(x_{( i )}\prime\beta_h)},\forall j\in\{1,\dots,J\}$$

Hierbei ist zu beachten, dass zur Parameteridentifikation eine Basiskategorie derart angenommen werden muss, dass beispielsweise gilt \(\beta_0=0\). Sonst können die Parameter nicht eindeutig geschätzt werden. Anders ausgedrückt reicht es J Wahrscheinlichkeiten zu berechnen, um J + 1 Wahrscheinlichkeiten zu bestimmen, da sie sich insgesamt zu eins addieren müssen. Im Fall von J + 1 = 2 landet man wieder beim Standard logistischen Modell (siehe oben).

Komponenten und Begriffe

Die Güte des Modells

1. Gesamtzahl an Beobachtungen:

Die gesamte Anzahl an Beobachtungen im Datensatz entspricht der Anzahl an Zeilen. Diese wird häufig mit n gekennzeichnet. Im Umfragedatensatz gibt es insgesamt 3471 Beobachtungen.

2. Gelöschte Beobachtungen:

Bei fehlenden Werten in Variablen können Beobachtungen für die Modellanalyse nicht berücksichtigt werden. Im Beispiel sind dies 754 Beobachtungen.

3. Zahl der Beobachtungen:

Hiermit ist die Zahl der Beobachtungen gemeint, die zur Anpassung des Modells genutzt wird. Das bedeutet, dass diese Anzahl sich aus der Differenz der Gesamtzahl an Beobachtungen und den gelöschten Beobachtungen auf Grund von fehlenden Werten in den gewünschten Variablen ergibt. In dem Modell wurden 2717 Beobachtungen genutzt.

6. Pseudo R²

Das   basiert auf dem Varianzzerlegungssatz, der besagt, dass sich die Varianz der abhängigen Variablen als die Summe eines Varianzteils, der durch das Regressionsmodell erklärt wird und der Varianz der Residuen (nicht erklärte Varianz) schreiben lässt. Das Bestimmtheitsmaß ist der Quotient aus erklärter Varianz und Gesamtvarianz. Als Anteilswert kann das R² Werte zwischen 0 und 1 annehmen. Das R^2 misst aber nur lineare Zusammenhänge, den es beim Logit-Modell jedoch nicht gibt. Die Definition von „Varianz“ ist im binär-logistischen Fall anders. Als Basis dienen hier Vergleiche der Likelihood Funktion L für das Null- und das vollständige Modell. Bekannte "Pseudo R^2" sind:

$$\text{McFadden}\quad R^2=1-\frac{L_{null}}{L_{voll}}$$

$$\text{Cox&Snell}\quad R^2=1-\left(\frac{L_{null}}{L_{voll}}\right)^{\frac{2}{n}}$$

$$\text{Nagelkerkes}\quad R^2=\frac{1-\left(\frac{L_{null}}{L_{voll}}\right)^{\frac{2}{n}}}{1-(L_{null})^\frac{2}{n}}$$

Das geschätzte Modell im Beispiel hat ein McFadden R^2 von 0.0001. Die Interpretation ist anders als im Kontext eines linearen Zusammenhangs. Man kann nun nicht mehr von einem erklärten Anteil sprechen. Vielmehr entziehen sich die Pseudo R^2 jeglicher inhaltlicher Interpretation. Es gilt jedoch für alle drei vorgestellten Maße folgende Faustregel:

\(R^2>0.2\): Modellanpassung ist akzeptabel

\(R^2>0.4\): Modellanpassung ist gut

\(R^2>0.5\): Modellanpassung ist sehr gut

8. Standardfehler des Schätzers:

Da das Logit Modell nicht analytisch lösbar ist, wird der Schätzer numerisch mittels der Maximum-Likelihood Methode ermittelt. Über diese Art von Schätzern können nur asymptotische Aussagen getroffen werden. So entspricht auch der Standardfehler asymptotisch dem Inversen der Fisher-Information.


Schätzergebnisse

9. Abhängige oder endogene Variable:

Im Beispiel ist das Rauchen (RAUCH) die abhängige Variable.

10. Erklärende oder exogene Variable:

Im Beispiel ist das Nettoeinkommen (NETTO) die erklärende Variable.

11. Geschätzte Parameter:

Bei einer einfachen logistischen Regression gibt es zwei geschätzte Parameter \( \beta_0\) für den Achsenabschnitt und \( \beta_1\) für die Steigung in den Logits. Die Interpretation im Logit Modell ist schwieriger als im linearen Regressionsmodell. Der Parameter \( \beta_0\) ist nicht sinnvoll interpretierbar. Der "Steigungsparameter" \(\beta_1\) gibt an, wie stark die erklärende Variable (Nettoeinkommen) die Wahrscheinlichkeit für das Eintreten des Ereignisses (Rauchen) beeinflusst.

Schätzung im Beispiel Rauchen-Nettoeinkommen:

\(\text{ln}\left(\frac{\hat{p}_i}{1-\hat{p}_i}\right) = -.8922759 + .0000128 \cdot NETTO_{i}\)

Interpretation der Parameter:

Der Parameter für die Konstante entspricht -.8922759. Dieser Wert ist nicht sinnvoll zu interpretieren.

Der Steigungsparameter entspricht .0000128. Das bedeutet, dass pro € das Risiko zu rauchen um ca. 0,00128% steigt.

12. Standardabweichung der Schätzung (Standardfehler, \(\hat{SF_{\beta_j}}\)):

Da die Parameter basierend auf einer Zufallsstichprobe geschätzt werden, unterliegen diese Schätzungen einer gewissen Ungenauigkeit, die durch die Standardabweichung der Schätzung quantifiziert wird. Standardfehler werden genutzt, um statistische Signifikanz zu überprüfen und um Konfidenzintervalle zu bilden.

13. Z-Statistik (empirischer Z-Wert).

Mit Hilfe eines z-Tests lässt sich prüfen, ob die Nullhypothese, dass ein Koeffizient gleich 0 ist, abgelehnt werden kann. Wenn dies nicht der Fall sein sollte, ist davon auszugehen, dass die zugehörige Kovariate keinen signifikaten Einfluss auf die abhängige Variable ausübt, d.h. die erklärende Variable ist nicht sinnvoll, um die Eigenschaften der abhängigen Variablen zu erklären.

Hypothese:  \(H: \beta_p=0\) gegen \(A: \beta_p \neq 0\) mit \(p=0,1\)

Teststatistik: \(T_p = \frac{\hat{\beta_p}-0}{\hat{SF_{\beta_p}}}\) mit \(p=0,1\)

Verteilung unter H: \(T_p \sim t_{n-(p+1)}\) mit \(p=0,1\)

Testentscheidung (H ablehnen wenn): \(|T_p| > t_{n-(p+1), 1-\frac{\alpha}{2}}\) mit with \(p=0,1\)

Überprüfung, ob Körpergröße Einfluss auf das Körpergewicht hat, anhand der T-Statistik:

Die Teststatistik vom Parameter für die Körpergröße ist  \(T_p = \frac{0.932}{0.0259} = 35.98\). Diese Teststatistik wird mit dem kritischen Wert vergleichen:

\(|T_1| = 35,98 > 1,961 = t_{3424-(1+1), 1-\frac{\alpha}{2}}\).

Schon anhand der Teststatistik kann man erkennen, dass die Nullhypothese \(\beta_1=0\) hier abgelehnt werden kann, d.h. dass die Körpergröße einen signifikanten Einfluss auf das Körpergewicht hat.

14. p-Wert zur T-Statistik:

Zusätzlich zur T-Statisik wird meistens ein p-Wert ausgegeben. Der p-Wert gibt die Wahrscheinlichkeit an, dass die Nullhypothese \(\beta_p=0\) zutrifft.

Überprüfung, ob Körpergröße Einfluss auf das Körpergewicht hat, anhand des p-Wertes:

Im Beispiel liegt der p-Wert zur Nullhypothese \(\beta_1=0\) unter 0,0001. Daraus kann man schließen, dass die Körpergröße einen signifikanten Einfluss auf das Körpergewicht ausübt.

15. 95%-Konfidenzintervall:

Konfidenzintervalle sind im Allgemeinen eine Möglichkeit, die Genauigkeit der Schätzung zu überprüfen. Ein 95%-Konfidenzintervall ist der Bereich, der im Durchschnitt in 95 von 100 Fällen den tatsächlichen Wert des Parameters einschließt.

Konfidenzintervall für den Steigungsparameter in der Beispielregression:                                                                                              

[.932062 - 1.96 * 0.0259041; .932062 - 1.96 * 0.0259041] = [.881273; .982851]

Outputs in den verschiedenen Statistikprogrammen

Modellannahmen und deren Überprüfung

  • Keine Stichwörter