Variablen und deren Zusammenhang
n Variablen pp multinomiale Ein ein Auto besitzt binomiale Autobesitzer kein Autobesitzer Autobesitz Die Variable, mit der soll sie darauf hat, ob man ein Auto besitzt, ist metrisch skaliert und misst das Einkommen der Status kein Auto Auto, also , besitzen öfter ein Auto. Einkommens 6509736 646.04 5 Autobesitzern besitzen 50% ein Auto auch hierAufbau und Interpretation der logistischen Regression
Das (binomiale) logistische Regressionsmodell ist durch folgende Gleichung gegeben:
$$P(y_i=1|X=x_{( i )})=G(x_{( i )}\prime\beta)=p_i=\frac{exp(\beta_1+x_{i,2}\beta_2+...+x_{i,p}\beta_p)}{1+exp(\beta_1+x_{i,2}\beta_2+...+x_{i,p}\beta_p)}=\frac{1}{1+exp(-\beta_1-x_{i,2}\beta_2-...-x_{i,p}\beta_p)},\forall i\in\{1,\dots,n\} $$
Die Parameter \(\beta_i\) werden mit der Maximum-Likelihood-Methode geschätzt, da eine direkte Berechnung mittels kleinster Quadrate (siehe lineare Regression) nicht möglich ist. Die Schätzwerte werden anhand iterativer Verfahren wie dem Newton-Raphson Algorithmus ermittelt. Da die log-Likelihood Funktion des logistischen Regressionsmodells überall konkav ist, exisitiert ein eindeutiger Maximum-Likelihood Schätzer für die zu bestimmenden Parameter.
Durch Umformung der obigen Gleichung erhält man die sogenannten Logits (\(\text{ln}\left(\frac{p_i}{1-p_i}\right)\)). In dem Beispiel sieht das wie folgt aus:
Hier soll der Zusammenhang zwischen Einkommen in Euro pro Monat (\(income\)) und der Wahrscheinlichkeit, ein Auto zu besitzen (\(p\)), erklärt werden:
Modell: \(\text{ln}\left(\frac{p_i}{1-p_i}\right)=\beta_0 + \beta_1 \cdot income_i\)
dargestellt. Zieht man den Logarithmus von dieser Gleichung, wird unser Modell linear in den Koeffizienten und man kann die gewohnte Interpretation wie in der linearen Regression anwenden. Wird \(x_1\) ceteris paribus um eine Einheit erhöht (alle anderen erklärenden Variablen verbleiben auf dem alten Wert), verändern sich die Odds um \(exp(\beta_1)\), also um \(\beta_1\cdot 100\%\). Inhaltlich stellen die Odds die Chance oder ein Risiko dar. In unserem Beispiel wäre dies die "Chance", ein Auto zu besitzen. Die Koeffizienten geben dann an, um wieviel Prozent sich das Risiko oder die Chance erhöht, wenn man eine der unabhängigen Variablen um eine Einheit erhöht (ceteris paribus).
Hat die abhängige Variable mehr als zwei Ausprägungen (J + 1), ist also multinomial skaliert wird das multinomiale Logitmodell verwendet. Wenn die Fehlerterme unabhängig und gleichverteilt nach der Gumbel Verteilung sind, ergibt sich als Modellgleichung für die Wahrscheinlichkeit, dass \(y_i\) die Ausprägung j annimmt:
$$P(y_i=j|X=x_{( i)})=p_{ij}=\frac{exp(x_{( i )}\prime\beta_j)}{1+\sum_{h=1}^J exp(x_{( i )}\prime\beta_h)},\forall j\in\{1,\dots,J\}$$
Hierbei ist zu beachten, dass zur Parameteridentifikation eine Basiskategorie derart angenommen werden muss, dass beispielsweise gilt \(\beta_0=0\). Sonst können die Parameter nicht eindeutig geschätzt werden. Anders ausgedrückt reicht es, J Wahrscheinlichkeiten zu berechnen, um J + 1 Wahrscheinlichkeiten zu bestimmen, da sie sich insgesamt zu eins addieren müssen. Im Fall von J + 1 = 2 landet man wieder beim Standard logistischen Modell (siehe oben).
Komponenten und Begriffe
Die Güte des Modells
1. Gesamtzahl an Beobachtungen:
Die gesamte Anzahl an Beobachtungen im Datensatz entspricht der Anzahl an Zeilen. Diese wird häufig mit n gekennzeichnet. In diesem Datensatz gibt es insgesamt 100 Beobachtungen.
2. Gelöschte Beobachtungen:
Bei fehlenden Werten in Variablen können Beobachtungen für die Modellanalyse nicht berücksichtigt werden. Im Beispiel sind dies 0 Beobachtungen.
3. Zahl der Beobachtungen:
Hiermit ist die Zahl der Beobachtungen gemeint, die zur Anpassung des Modells genutzt wird. Das bedeutet, dass diese Anzahl sich aus der Differenz der Gesamtzahl an Beobachtungen und den gelöschten Beobachtungen auf Grund von fehlenden Werten in den gewünschten Variablen ergibt. In dem Modell wurden 100 Beobachtungen genutzt.
6. Pseudo R²
Das R² basiert auf dem Varianzzerlegungssatz, der besagt, dass sich die Varianz der abhängigen Variablen als die Summe eines Varianzteils, der durch das Regressionsmodell erklärt wird und der Varianz der Residuen (nicht erklärte Varianz) schreiben lässt. Das Bestimmtheitsmaß R² ist der Quotient aus erklärter Varianz und Gesamtvarianz. Als Anteilswert kann das R² Werte zwischen 0 und 1 annehmen. Das R² misst aber nur lineare Zusammenhänge, den es beim Logit-Modell jedoch nicht gibt. Die Definition von „Varianz“ ist im binär-logistischen Fall anders. Als Basis dienen hier Vergleiche der Likelihood Funktion L für das Null- und das vollständige Modell. Bekannte "Pseudo R²" sind:
$$\text{McFadden}\quad R^2=1-\frac{L_{null}}{L_{voll}}$$
$$\text{Cox&Snell}\quad R^2=1-\left(\frac{L_{null}}{L_{voll}}\right)^{\frac{2}{n}}$$
$$\text{Nagelkerkes}\quad R^2=\frac{1-\left(\frac{L_{null}}{L_{voll}}\right)^{\frac{2}{n}}}{1-(L_{null})^\frac{2}{n}}$$5893. Die Interpretation ist anders als im Kontext eines linearen Zusammenhangs. Man kann nun nicht mehr von einem erklärten Anteil sprechen. Vielmehr entziehen sich die Pseudo R² jeglicher inhaltlicher Interpretation. Es gilt jedoch für alle drei vorgestellten Maße folgende Faustregel:\(R^2>0.2\): Modellanpassung ist akzeptabel
\(R^2>0.4\): Modellanpassung ist gut
\(R^2>0.5\): Modellanpassung ist sehr gut Besitzen eines Autos carincomeBesitzen eines Autos Auto3441888 0530702 income34418880530702 Euro die Chance, ein Auto zu besitzen 53% j \beta_p \neq 0Teststatistik = \frac{\hat{\beta_p}-0}{\hat{SF_{\beta_p}Verteilung unter H: p \sim t_{n-(p+1)}\) mit \(p=0,1\)Testentscheidung (H ablehnen wenn): p > t_{n-(p+1), mit with \(p=0,1\)Überprüfung, ob das Nettoeinkommen Einfluss auf das Rauchen hat, anhand der Z-Statistik:
Die Teststatistik vom Parameter für das Nettoeinkommen ist \(T_p = \frac{0.0530702}{0.0110797} \approx 4.79\). Diese Teststatistik wird mit dem kritischen Wert verglichen:
\(|T_1| = 4.79 > 1.96 = z_{1-\frac{\alpha}{2}}\).
Schon anhand der Teststatistik kann man erkennen, dass die hier abgelehnt werden kann, d.h. Besitzen eines Autos hat.14. p-Wert zur Z-Statistik:
Zusätzlich zur Z-Statisik wird meistens ein p-Wert ausgegeben. Der p-Wert gibt die Wahrscheinlichkeit an, dass die Nullhypothese \(\beta_p=0\) zutrifft.
Überprüfung, ob das Einkommen Einfluss auf das Besitzen eines Autos hat, anhand des p-Wertes:
Im Beispiel liegt der p-Wert zur Nullhypothese \(\beta_1=0\) bei 0.000. Daraus kann man schließen, dass das Einkommen einen signifikanten Einfluss auf das Besitzen eines Autos ausübt, und zwar zu allen gängigen Signifikanzniveaus0530702 0110797 00530702 01107970313543074786Modellannahmen und deren Überprüfung