Versionen im Vergleich

Schlüssel

  • Diese Zeile wurde hinzugefügt.
  • Diese Zeile wurde entfernt.
  • Formatierung wurde geändert.


Die logistische Regression ist ein Modell, bei der die abhängige Variable dichotom ist, d.h. nur zwei Werte annehmen kann ("0" und "1" oder "Erfolg" und "Misserfolg"). Sie ist folglich bernoulli verteilt \((Y_i|x_{( i )}\sim\mathcal{Ber}(p_i))\). Die Fehlerterme werden bei diesem Modell als logistisch verteilt angenommen. Falls allerdings die abhängige Variable kategorisch ist \((Y_i|x_{( i )}\sim\operatorname{Categorical}(p_{i,1},\dots,p_{i,m}))\) vorliegt (es treten mehr als zwei unterschiedliche Ausprägungen auf), kann eine verallgemeinerte Version, das multinomiale logistische Regressionsmodell verwendet werden.

Inhaltsverzeichnis

Inhalt
maxLevel2
excludeInhaltsverzeichnis



Info
titleInfo

fu:stat bietet regelmäßig Schulungen für Hochschulangehörige sowie für Unternehmen und weitere Institutionen an. Die Inhalte reichen von Statistikgrundlagen (Deskriptive, Testen, Schätzen, lineare Regression) bis zu Methoden für Big Data. Es werden außerdem Kurse zu verschiedenen Software-Paketen gegeben. Auf Anfrage können wir auch gerne individuelle Inhouse-Schulungen bei Ihnen anbieten.


Variablen und deren Zusammenhang

Bei der logistischen Regression können die unabhängige/n Variable/n Variablen jedes beliebige Skalenniveau annehmen und müssen auch nicht innerhalb der einzelnen unabhängigen Variablen \(x_1,...,x_k\) einheitlich sein.

abhängige Variable (\(y\)) dichotom (binomial), multinomial
unabhängige/n Variable/n (\(x\))beliebiges Skalenniveau (die Skalenniveaus der einzelnen \(x_1,...,x_k\) dürfen sich auch unterscheiden, liegt eine kategorische Variable vor, so muss eine Zerlegung in Dummy-Variablen stattfinden)

Ein Fragestellung, bei der sich eine logistische Regression anbieten würde, wäre beispielsweise, welche Faktoren die Wahrscheinlichkeit beeinflussen, dass eine Person ein Auto besitzt. In diesem Fall würde man als abhängige Variable eine binomiale 0-1 kodierte Variable verwenden, wobei 1 für Autobesitzer und 0 für kein Autobesitzer steht. 

Das Ziel der logistischen Regression ist die Vorhersage der Wahrscheinlichkeit, mit der ein bestimmtes Ereignis (unter Verwendung von Einflussfaktoren) eintritt.

Einführung in das Bespiel: Autobesitz und Einkommen

Die Variable, mit der untersucht werden soll, ob sie einen Einfluss darauf hat, ob man ein Auto besitzt, ist metrisch skaliert und misst das Einkommen. Das Einkommen wird in Euro pro Monat gemessen und der Status ist binär (0 für kein Auto und 1 für Auto). Meistens unterliegt einer statistischen Fragestellung eine theoretische Hypothese. In diesem Beispiel soll folgende Hypothese überprüft werden:

Hypothese: Personen aus oberen Gesellschaftsschichten, also mit einem höheren Einkommen, besitzen öfter ein Auto.

Für einen ersten Überblick über die beiden Variablen bieten sich für das entsprechende Skalenniveau passende Maße an. Bei metrischen Variablen können dies z.B. der Mittelwert oder der Median sowie das Minimum und das Maximum sein. In diesem Fall beträgt der Mittelwert des Einkommens 650.9736 Euro und der Median 646.04 Euro.

Auch bei der binären Variable lässt sich ein Mittelwert berechnen. Dieser beträgt im Beispiel 0.5. Dies ist interpretierbar als der Anteil an Autobesitzern. In diesem Datensatz besitzen folglich 50% der Befragten ein Auto.

Um einen ersten Überblick über den Zusammenhang der beiden Variablen zu bekommen, ist es auch hier möglich, sich einen Scatterplot anzuschauen:

Auf der x-Achse, ist das Einkommen (metrisch) abgetragen, auf der y-Achse, ob man ein Auto (\(y=1\)) oder kein Auto (\(y=0\)) besitzt. Es lässt sich erkennen, dass mehr Befragte mit einem niedrigeren Einkommen kein Auto besitzen als die mit einem höheren Einkommen. Ob diese Vermutung stimmt, wird mit der logistischen Regression untersucht.












Anhänge
uploadfalse
patterns.*csv, .*dta, .*sav


Anhänge
uploadfalse
patterns.*R, .*do, .*sas


Aufbau der logistischen Regression

Das (binomiale) logistische Regressionsmodell ist durch folgende Gleichung gegeben:

$$P(y_i=1|X=x_{( i )})=G(x_{( i )}\prime\beta)=p_i=\frac{exp(\beta_0+x_{i,1}\beta_1+x_{i,2}\beta_2+...+x_{i,k}\beta_k)}{1+exp(\beta_0+x_{i,1}\beta_1+x_{i,2}\beta_2+...+x_{i,k}\beta_k)}=\frac{1}{1+exp(-\beta_0-x_{i,1}\beta_1-x_{i,2}\beta_2-...-x_{i,k}\beta_k)},  \forall i\in\{1,\dots,n\} $$

Die Parameter \(\beta_i\) werden mit der Maximum-Likelihood-Methode geschätzt, da eine direkte Berechnung mittels kleinster Quadrate (siehe lineare Regression) nicht möglich ist. Die Schätzwerte werden anhand iterativer Verfahren wie dem Newton-Raphson Algorithmus ermittelt. Da die log-Likelihood Funktion des logistischen Regressionsmodells überall konkav ist, exisitiert ein eindeutiger Maximum-Likelihood Schätzer für die zu bestimmenden Parameter.

Interpretation der Parameter und anderen Kenngrößen

Die Interpretation der marginalen Effekte dieser Modellklasse unterscheidet sich deutlich vom linearen Regressionsmodell. Die marginalen Effekte der Logitregression entsprechen dem Produkt aus geschätztem Parameter und Wahrscheinlichkeitsdichte des Modells:

$$\frac{\partial P(y_i=1|X=x_{( i )})}{\partial x_j}=g(x_{( i )}\prime\beta)\beta_j,$$

wobei \(g(z)=\frac{\partial G(z)}{\partial z}\). Die marginalen Effekte sind also immer von den Ausprägungen aller unabhängigen Variablen abhängig. Da Wahrscheinlichkeitsdichten immer positiv sind, gibt das Vorzeichen des geschätzten Parameters die Richtung des Effekts auf die bedingte Wahrscheinlichkeit an. In unserem Beispiel lauten die geschätzten Koeffizienten:

Untersuchung des Zusammenhangs zwischen Einkommen und Besitz eines Autos:

Zu schätzendes Modell:  \(p_i=\frac{exp(\beta_0+\beta_1\cdot income_i)}{1+exp(\beta_0+\beta_1\cdot income_i)}\)

Geschätzte Parameter:  \(\hat{\beta}_0 = -34,42, \quad \hat{\beta}_1=0,053\)

Die geschätzten Parameter lassen darauf schließen, dass ein höheres Einkommen einen positiven Effekt auf das Besitzen eines Autos hat (\(\hat{\beta}_1>0\)).

Es lassen sich jedoch auch wie bei einem linearen Regressionsmodell Wahrscheinlichkeiten vorhersagen, indem man Werte für alle unabhängigen Variablen einsetzt. Hier ein Beispiel:

Wahrscheinlichkeit, mit der laut dem geschätzten Modell, ein Student, der 650€ pro Monat verdient, ein Auto besitzt:

\(\hat{p}_\text{Student}=\frac{exp(-34,42+0,053\cdot 650)}{1+exp(-34,42+0,053\cdot 650)}=0,507\)

Ein Student mit 650€ Lohn pro Monat besitzt also mit einer vorhergesagten Wahrscheinlichkeit von 50,7% ein Auto.

Da die marginalen Effekte nicht konstant und deshalb keiner so direkten Interpretation wie im linearen Modell zugänglich sind und die vorhergesagten Wahrscheinlichkeiten auch nur spezielle Aussagen ermöglichen, werden oft die sogenannten Odds, Log-Odds (Logits) oder die Oddsratio betrachtet.

Die Odds sind folgendermaßen definiert:

$$\text{odds}(x_{( i )}) =\frac{p_i}{1-p_i}=\frac{\frac{exp(\beta_0+x_{i,1}\beta_1+...+x_{i,k}\beta_k)}{1+exp(\beta_0+x_{i,1}\beta_1+...+x_{i,k}\beta_k)}}{1-\frac{exp(\beta_0+x_{i,1}\beta_1+...+x_{i,k}\beta_k)}{1+exp(\beta_0+x_{i,1}\beta_1+...+x_{i,k}\beta_k)}}=exp(\beta_0+x_{i,1}\beta_1+...+x_{i,k}\beta_k)$$

Die Odds werden oft als "Chance" oder "Risiko" bezeichnet, sie geben das Verhältnis von Wahrscheinlichkeit zur Gegenwahrscheinlichkeit an. Im Beispiel sieht das wie folgt aus:

"Chance" eines Studenten mit 650€ Einkommen pro Monat auf ein Auto:

\(\text{odds}(650)=\frac{0,507}{1-0,507}=exp(-34,42+0,053\cdot 650)=1.030\)

Ein Student mit diesem Einkommen hat eine 3% höhere Chance, ein Auto zu besitzen, als keines zu besitzen.

Da die Odds exponentiell sind, bietet sich an, sie zu logarithmieren, um Zusammenhänge zu linearisieren. So entstehen die Log-Odds, auch Logits genannt:

$$\ln\left(\frac{p_i}{1-p_i}\right)=\beta_0+x_{i,1}\beta_1+...+x_{i,k}\beta_k$$

Der Vorteil ist hier, dass nun die Definition der "Basiswahrscheinlichkeit" keine Rolle mehr spielt. Ist zum Beispiel die Wahrscheinlichkeit, ein Auto zu besitzen, 0,3 (und die Gegenwahrscheinlichkeit somit 0,7), nehmen die Odds den Wert \(\text{odds}=\frac{0,3}{0,7}=0,43\) an. Dreht man die Definition nun um, ist also \(p_i\) die Wahrscheinlichkeit, kein Auto zu besitzen, sind die Odds \(\text{odds}=\frac{0,7}{0,3}=2,33\), obwohl sich an den Daten nichts geändert hat. Die Logits beheben dieses Problem, da sie symmetrisch um die Null sind (\(\ln\left(\frac{0,3}{0,7}\right)=-0,85\) und \(\ln\left(\frac{0,7}{0,3}\right)=0,85\)).

die Oddsratio alsDie Oddsratio setzt nun die Odds in Relation:

\[\text{OR}=\frac{\text{odds}(x_1{i,j}+1)}{\text{odds}(x_1{i,j})}=\frac{\frac{G(x_1{i,j}+1)}{1-G(x_1{i,j}+1)}}{\frac{G(x_1{i,j})}{1-G(x_1{i,j})}}=\frac{exp(\beta_0+\beta_1x_{i,1}+...+\beta_j(x_1{i,j}+1)+...+\beta_kx_{i,k})}{exp(\beta_0+\beta_1x_{i,1}+...+\beta_jx_{i,j}+...+\beta_kx_{i,k)}=exp(\beta_1j),\;\;\text{wobei}\;G(x_1)=\frac{exp(\beta_0+\beta_1x_1)}{1+exp(\beta_0+\beta_1x_1)}\]

dargestellt. Zieht man den Logarithmus von dieser Gleichung, wird unser Modell linear in den Koeffizienten und man kann die gewohnte Interpretation wie in der linearen Regression anwenden. Wird \(x_1\) ceteris paribus um eine Einheit erhöht (alle anderen erklärenden Variablen verbleiben auf dem alten Wert), verändern sich die Odds um \(exp(\beta_1)\), also um \(\beta_1\cdot 100\%\). Inhaltlich stellen die Odds die Chance oder ein Risiko dar. In unserem Beispiel wäre dies die "Chance", ein Auto zu besitzen. Die Koeffizienten geben dann an, um wieviel Prozent sich das Risiko oder die Chance erhöht, wenn man eine der unabhängigen Variablen um eine Einheit erhöht (ceteris paribus).

Hat die abhängige Variable mehr als zwei Ausprägungen (J + 1), ist also multinomial skaliert wird das multinomiale Logitmodell verwendet. Wenn die Fehlerterme unabhängig und gleichverteilt nach der Gumbel Verteilung sind, ergibt sich als Modellgleichung für die Wahrscheinlichkeit, dass \(y_i\) die Ausprägung j annimmt:

$$P(y_i=j|X=x_{( i)})=p_{ij}=\frac{exp(x_{( i )}\prime\beta_j)}{1+\sum_{h=1}^J exp(x_{( i )}\prime\beta_h)},\forall j\in\{1,\dots,J\}$$

Hierbei ist zu beachten, dass zur Parameteridentifikation eine Basiskategorie derart angenommen werden muss, dass beispielsweise gilt \(\beta_0=0\). Sonst können die Parameter nicht eindeutig geschätzt werden. Anders ausgedrückt reicht es, J Wahrscheinlichkeiten zu berechnen, um J + 1 Wahrscheinlichkeiten zu bestimmen, da sie sich insgesamt zu eins addieren müssen. Im Fall von J + 1 = 2 landet man wieder beim Standard logistischen Modell (siehe oben).


Durch Umformung der obigen Gleichung erhält man die sogenannten Logits oder Log-Odds \((\text{ln}\left(\frac{p_i}{1-p_i}\right)=\beta_0+x_{i,1}\beta_1+x_{i,2}\beta_2+...+x_{i,k}\beta_k)\). In dem Beispiel sieht das wie folgt aus:

Hier soll der Zusammenhang zwischen Einkommen in Euro pro Monat (\(income\)) und der Wahrscheinlichkeit, ein Auto zu besitzen (\(p\)), erklärt werden:

Modell: \(\text{ln}\left(\frac{p_i}{1-p_i}\right)=\beta_0 + \beta_1 \cdot income_i\)




Modellgüte

Da es sich beim Logit-Modell um ein nicht-lineares Modell handelt, ist das Bestimmtheitsmaß (R²) nicht aussagekräftig. Es muss deshalb auf Alternativen zurückgegriffen werden. Im Folgenden werden drei Möglichkeiten vorgestellt.

Pseudo R²

Das basiert auf dem Varianzzerlegungssatz, der besagt, dass sich die Varianz der abhängigen Variablen als die Summe eines Varianzteils, der durch das Regressionsmodell erklärt wird und der Varianz der Residuen (nicht erklärte Varianz) schreiben lässt. Das Bestimmtheitsmaß R² ist der Quotient aus erklärter Varianz und Gesamtvarianz. Als Anteilswert kann das R² Werte zwischen 0 und 1 annehmen. Das R² misst aber nur lineare Zusammenhänge, den es beim Logit-Modell jedoch nicht gibt. Die Definition von „Varianz“ ist im binär-logistischen Fall anders. Als Basis dienen hier Vergleiche der Likelihood Funktion \(L\) für das Null- und das vollständige Modell. Das Null-Modell ist das Modell, bei dem alle Parameter außer dem Intercept (also \(\beta_1,..., \beta_k\)) auf Null gesetzt werden. Das Modell hat folglich keine Erklärungskraft. Das vollständige Modell ist jenes, wie man es vorher spezifiziert hat, einschließlich aller Parameter und Variablen. Die Likelihood gibt dann an, wie wahrscheinlich es ist, dass die vorliegenden Daten erzeugt wurden, wenn das Modell stimmt.

Bekannte „Pseudo R²" sind:

$$\text{McFadden}\quad R^2=1-\frac{\ln(L_{voll})}{\ln(L_{null})}$$

$$\text{Cox&Snell}\quad R^2=1-\left(\frac{L_{null}}{L_{voll}}\right)^{\frac{2}{n}}$$

$$\text{Nagelkerkes}\quad R^2=\frac{1-\left(\frac{L_{null}}{L_{voll}}\right)^{\frac{2}{n}}}{1-(L_{null})^\frac{2}{n}}$$

Aus den vorliegenden Daten lassen sich folgende Werte für die Likelihood-Funktionen errechnen (siehe Outputs der Statistikprogramme):

\(L_{null}=7.89\cdot 10^{-31}\)

\(L_{voll}=4.32\cdot 10^{-13}\)

Hieran lässt sich bereits erkennen, dass das volle Modell wahrscheinlicher die Daten erzeugt hat. Um dies zu bestätigen werden die Pseudo R² nun berechnet:

Berechnung der Pseudo R² im Beispiel:

\(\text{McFadden}\quad R^2=1-\frac{\ln(4.32\cdot 10^{-13})}{\ln(7.89\cdot 10^{-31})}=0.589\)

\(\text{Cox&Snell}\quad R^2=1-\left(\frac{7.89\cdot 10^{-31}}{4.32\cdot 10^{-13}}\right)^{\frac{2}{100}}=0.558\)

\(\text{Nagelkerkes}\quad R^2=\frac{1-\left(\frac{7.89\cdot 10^{-31}}{4.32\cdot 10^{-13}}\right)^{\frac{2}{100}}}{1-(7.89\cdot 10^{-31})^\frac{2}{100}}=0.744\)

Die Interpretation ist anders als im Kontext eines linearen Zusammenhangs. Man kann nun nicht mehr von einem erklärten Anteil sprechen. Vielmehr entziehen sich die Pseudo R² jeglicher inhaltlicher Interpretation. Es gilt jedoch für alle drei vorgestellten Maße folgende Faustregel:

\(R^2>0.2\): Modellanpassung ist akzeptabel

\(R^2>0.4\): Modellanpassung ist gut

\(R^2>0.5\): Modellanpassung ist sehr gut

Devianz

Die Likelihood \(L\) ist die Wahrscheinlichkeit, mit den geschätzten \(\beta\)-Koeffizienten die empirisch erhobenen Beobachtungswerte zu erhalten, also die Likelihood des vollen Modells. Der Wert \(−2\cdot\ln L\) bezeichnet die Devianz, welche approximativ \(\chi^2\) verteilt ist und eine Abweichung vom Idealwert darstellt. Ist das Gesamtmodell perfekt, ist \(L = 1\) und entsprechend die Devianz gleich 0. Eine sich daraus resultierenden Nullhypothese zum Testen der Gesamtgüte des Modells lautet:

H0: Das Modell besitzt eine perfekte Anpassung.

Der p-Wert zu dieser Nullhypothese entspricht 1 minus dem Wert der Verteilungsfunktion der \(\chi^2\)-Verteilung an der Stelle \(−2\cdot\ln L\). Die Anzahl Freitheitsgrade (df) beträgt \(n−k−1\) (\(n\) = Stichprobenumfang; \(k\) =Anzahl Kovariaten).

\(p = 1 - \chi^2_{n-k-1}(-2\cdot\ln L)\)

Wenn der p-Wert größer als das vorgegebene Signifikanzniveau ist, kann die Nullhypothese nicht verworfen werden.

Berechnung der Devianz im Beispiel:

\(-2\cdot\ln(L)=-2\cdot\ln(4.32\cdot 10^{-13})=56.939\)

Berechnung des p-Wertes im Beispiel:

\(\chi^2_{100-1-1}(56.939)=0.000295\)

\(p=1-0.000295=0.999705\)

Zu den gängigen Signifikanzniveaus kann die Nullhypothese, dass das Modell eine perfekte Anpassun besitzt, nicht verworfen werden.


Likelihood Ratio Test

Die Devianz hat den Nachteil, dass sie von der Verteilung der Zielvariable abhängt. Der Likelihood Ratio (LR) Test vergleicht daher den empirischen \(\ln L\)-Wert nicht mit einer perfekten Anpassung, sondern mit der logarithmierten Likelihood des Null-Modells. Null-Modell heißt in diesem Fall, dass eine Schätzung nur mit der Konstanten (\(\beta_0\)) erfolgt, alle anderen Paramter (\(\beta_1,...\beta_k\)) also auf Null gesetzt werden. Die Devianz des Null-Modells (Null deviance) wird dann mit der Devianz des vollständigen Modells (Residual deviance) verglichen. Ist diese Differenz zwischen den beiden Werten klein, kann daraus geschlossen werden, dass die Kovariaten nicht zur Trennung von \(Y = 1\) und \(Y = 0\) beitragen. Die Null-Hypothese lautet:

H0 : \(\beta_1 = \beta_2 = ... = \beta_k = 0\)

und ist mit dem F-Test der multiplen linearen Regression vergleichbar. Die absolute Differenz der Devianzen ist ebenfalls \(\chi^2\) verteilt, so dass der p-Wert 1 minus dem Wert der Verteilungsfunktion der \(\chi^2\)-Verteilung an der Stelle der Devianzdifferenz (Null-Modell - Schätzmodell) beträgt und die Freiheitsgrade gleich der Anzahl Kovariaten entspricht (\(k\)).

\(p = 1 - \chi^2_k(-2(\ln L_{null} - \ln L_{voll}))\)

Ist der p-Wert kleiner als das vorgegebene Signifikanzniveau, kann die Nullhypothese verworfen werden.

Berechnung des p-Wertes im Beispiel:

\(-2[\ln(7.89\cdot 10^{-31})-\ln(4.32\cdot 10^{-13})]=81.69\)

\(\chi^2_1(81.69)=1\)

\(p=1-1=0\)

Zu den gängigen Signifikanzniveaus kann die Nullhypothese, dass das volle Modell keine Erklärungskraft besitzt, abgelehnt werden.





Komponenten und Begriffe

Die Güte des Modells

1. Gesamtzahl an Beobachtungen:

Die gesamte Anzahl an Beobachtungen im Datensatz entspricht der Anzahl an Zeilen. Diese wird häufig mit n gekennzeichnet. In diesem Datensatz gibt es insgesamt 100 Beobachtungen.

2. Gelöschte Beobachtungen:

Bei fehlenden Werten in Variablen können Beobachtungen für die Modellanalyse nicht berücksichtigt werden. Im Beispiel sind dies 0 Beobachtungen.

3. Zahl der Beobachtungen:

Hiermit ist die Zahl der Beobachtungen gemeint, die zur Anpassung des Modells genutzt wird. Das bedeutet, dass diese Anzahl sich aus der Differenz der Gesamtzahl an Beobachtungen und den gelöschten Beobachtungen auf Grund von fehlenden Werten in den gewünschten Variablen ergibt. In dem Modell wurden 100 Beobachtungen genutzt.

6. Pseudo R²

Das geschätzte Modell im Beispiel hat ein McFadden R² von 0.5893. Diese Zahl ist nicht direkt interpretierbar (siehe Faustregel oben).

8. Standardfehler des Schätzers:

Da das Logit Modell nicht analytisch lösbar ist, wird der Schätzer numerisch mittels der Maximum-Likelihood Methode ermittelt. Über diese Art von Schätzern können nur asymptotische Aussagen getroffen werden. So entspricht auch der Standardfehler asymptotisch dem Inversen der Fisher-Information.

Schätzergebnisse

9. Abhängige oder endogene Variable:

Im Beispiel ist das Besitzen eines Autos (car) die abhängige Variable.

10. Erklärende oder exogene Variable:

Im Beispiel ist das Einkommen (income) die erklärende Variable.

11. Geschätzte Parameter:

Bei einer einfachen logistischen Regression gibt es zwei geschätzte Parameter: \( \beta_0\) für den Achsenabschnitt und \( \beta_1\) für die Steigung in den Logits. Die Interpretation im Logit Modell ist schwieriger als im linearen Regressionsmodell. Der Parameter \( \beta_0\) ist nicht sinnvoll interpretierbar. Der "Steigungsparameter" \(\beta_1\) gibt an, wie stark die erklärende Variable (Einkommen) die Wahrscheinlichkeit für das Eintreten des Ereignisses (Besitzen eines Autos) beeinflusst.

Schätzung im Beispiel Auto-Einkommen:

\(\text{ln}\left(\frac{\hat{p}_i}{1-\hat{p}_i}\right) = -34.41888 + .0530702 \cdot income_{i}\)

Interpretation der Parameter:

Der Parameter für die Konstante entspricht -34.41888. Dieser Wert ist nicht sinnvoll zu interpretieren.

Der Steigungsparameter entspricht .0530702. Das bedeutet, dass pro Euro die Chance, ein Auto zu besitzen, um ca. 5.3% steigt.

12. Standardabweichung der Schätzung (Standardfehler, \(\hat{SF_{\beta_j}}\)):

Da die Parameter basierend auf einer Zufallsstichprobe geschätzt werden, unterliegen diese Schätzungen einer gewissen Ungenauigkeit, die durch die Standardabweichung der Schätzung quantifiziert wird. Standardfehler werden genutzt, um statistische Signifikanz zu überprüfen und um Konfidenzintervalle zu bilden.

13. Z-Statistik (empirischer Z-Wert).

Mit Hilfe eines Wald- oder Likelihood-Ratio Tests lässt sich prüfen, ob die Nullhypothese, dass ein Koeffizient gleich 0 ist, abgelehnt werden kann. Wenn dies nicht der Fall sein sollte, ist davon auszugehen, dass die zugehörige Kovariate keinen signifikaten Einfluss auf die abhängige Variable ausübt, d.h. die erklärende Variable ist nicht sinnvoll, um die Eigenschaften der abhängigen Variablen zu erklären.

Hypothese:  \(H: \beta_j=0\) gegen \(A: \beta_j \neq 0\) mit \(j=0,1\)

Teststatistik: \(T_j = \frac{\hat{\beta_j}-0}{\hat{SF_{\beta_j}}}\) mit \(j=0,1\)

Verteilung unter H: \(T_j \sim t_{n-(j+1)}\) mit \(j=0,1\)

Testentscheidung (H ablehnen wenn): \(|T_j| > t_{n-(j+1), 1-\frac{\alpha}{2}}\) mit \(j=0,1\)

Überprüfung, ob das Einkommen Einfluss auf das Besitzen eines Autos hat, anhand der Z-Statistik:

Die Teststatistik vom Parameter für das Einkommen ist  \(T_1 = \frac{0.0530702}{0.0110797} \approx 4.79\). Diese Teststatistik wird mit dem kritischen Wert verglichen:

\(|T_1| = 4.79 > 1.96 = z_{1-\frac{\alpha}{2}}\).

Schon anhand der Teststatistik kann man erkennen, dass die Nullhypothese \(\beta_1=0\) hier abgelehnt werden kann, d.h. dass das Einkommen einen signifikanten Einfluss auf das Besitzen eines Autos hat.

14. p-Wert zur Z-Statistik:

Zusätzlich zur Z-Statisik wird meistens ein p-Wert ausgegeben. Der p-Wert gibt die Wahrscheinlichkeit an, dass die Nullhypothese \(\beta_j=0\) zutrifft.

Überprüfung, ob das Einkommen Einfluss auf das Besitzen eines Autos hat, anhand des p-Wertes:

Im Beispiel liegt der p-Wert zur Nullhypothese \(\beta_1=0\) bei 0.000. Daraus kann man schließen, dass das Einkommen einen signifikanten Einfluss auf das Besitzen eines Autos ausübt, und zwar zu allen gängigen Signifikanzniveaus.

15. 95%-Konfidenzintervall:

Konfidenzintervalle sind im Allgemeinen eine Möglichkeit, die Genauigkeit der Schätzung zu überprüfen. Ein 95%-Konfidenzintervall ist der Bereich, der im Durchschnitt in 95 von 100 Fällen den tatsächlichen Wert des Parameters einschließt.

Konfidenzintervall für den Steigungsparameter in der Beispielregression:                                                                                              

[0.0530702 - 1.96 * 0.0110797; 0.0530702 + 1.96 * 0.0110797] = [0.0313543; 0.074786]




Outputs in den verschiedenen Statistikprogrammen

Hier werden die Outputs aus den verschiedenen Statistikprogrammen vorgestellt. Die Outputs einer logistischen Regression unterscheiden sich teils in den verschiedenen Statistikprogrammen. Sowohl sind die Werte unterschiedlich angeordet, als auch werden teils nicht die gleichen Werte ausgegeben.

Im Folgenden werden die Werte 1-15, wenn vorhanden, an den Output der verschiedenen Statistikprogramme geschrieben, damit die Werte im Output gefunden werden können.

Output in R

Output in Stata

Output in SPSS

Die logistische Regression in SPSS wird durchgeführt über den Pfad Analysieren → Regression → Binär logistisch...

Sie erhalten unter anderem diesen Output:


Output in SAS

Mit der Procedure "Logistic":




Modellannahmen und deren Überprüfung

Keine Aureißer

Für jede Ausprägung der abhängigen Variablen sollten mindestens 25 Beobachtungen vorliegen. Außerdem sollten keine Ausreißer, also Werte, die sehr schlecht zum Modell passen, vorkommen. Überprüfen lässt sich dies nicht genau, dennoch lohnt sich immer ein Blick auf den Residuenplot.

Keine Multikollinearität

Wenn zwei oder mehr metrische abhängige Variablen im Logit-Modell vorkommen, muss auf Mulitkollinearität getestet werden. Das bedeutet, dass zwei oder mehrere Variablen stark korrelieren, in diesem Fall sind die Schätzergebnisse der logistischen Regression nicht verlässlich und die Standardfehler werden sehr groß.

Dafür berechnet man den Variance Inflation Factor (VIF) und die paarweisen Korrelationen. Liegt der VIF unter 5 und die paarweisen Korrelation unter 0,8 ist in der Regel nicht von Multikollinerität auszugehen.

Verteilung der Fehlerterme

Die Fehlerterme im Logit-Modell sind durch die Konstruktion unabhängig identisch nach der Gumbel-Verteilung verteilt. Diese hat folgende Verteilungsfunktion:

\(F(x) = e^{-e^{-\frac{1}{\beta}(x-\mu)}}\) für \(\beta>0\) und \(\mu\in\mathbb{R}\).

Diese Annahme ist nicht überprüfbar, sondern sollte begründet werden.