Seitenhistorie

binomial (). Die Fehlerterme werden bei diesem Modell als logistisch verteilt angenommen. multinomial (m) vorliegt (es treten mehr als zwei unterschiedliche Ausprägungen auf), kann eine verallgemeinerte Version, das multinomiale logistische Regressionsmodell verwendet werden

Variablen und deren Zusammenhang

Info

title	Info

fu:stat bietet regelmäßig Schulungen für Hochschulangehörige sowie für Unternehmen und weitere Institutionen an. Die Inhalte reichen von Statistikgrundlagen (Deskriptive, Testen, Schätzen, lineare Regression) bis zu Methoden für Big Data. Es werden außerdem Kurse zu verschiedenen Software-Paketen gegeben. Auf Anfrage können wir auch gerne individuelle Inhouse-Schulungen bei Ihnen anbieten.

n Variablen pp multinomiale Ein ein Auto besitzt binomiale Autobesitzer kein Autobesitzer

Nichtraucher steht.

Das Ziel der logistischen Regression ist die Vorhersage der Wahrscheinlichkeit, mit der ein bestimmtes Ereignis (unter Verwendung von Einflussfaktoren) eintritt.

Einführung in das Bespiel:

Autobesitz Die Variable, mit der soll sie darauf hat, ob man ein Auto besitzt, ist metrisch skaliert und misst das Einkommen der Status kein Auto Auto

Raucher). Meistens unterliegt einer statistischen Fragestellung eine theoretische Hypothese. In diesem Beispiel soll folgende Hypothese überprüft werden:

Hypothese: Personen aus oberen Gesellschaftsschichten

, also , besitzen öfter ein Auto.

) rauchen häufiger.

Für das Beispiel wird der Umfragedatensatz verwendet. Für einen ersten Überblick über die beiden Variablen bieten sich für das entsprechende Skalenniveau passende Maße an. Bei metrischen Variablen können dies z.B. der Mittelwert oder der Median sowie das Minimum und das Maximum sein. In diesem Fall beträgt der Mittelwert des

Einkommens 6509736 646.04 5 Autobesitzern besitzen 50% ein Auto auch hier

Image Removed

Aufbau und Interpretation der logistischen Regression

Das (binomiale) logistische Regressionsmodell ist durch folgende Gleichung gegeben:

$$P(y_i=1|X=x_{( i )})=G(x_{( i )}\prime\beta)=p_i=\frac{exp(\beta_1+x_{i,2}\beta_2+...+x_{i,p}\beta_p)}{1+exp(\beta_1+x_{i,2}\beta_2+...+x_{i,p}\beta_p)}=\frac{1}{1+exp(-\beta_1-x_{i,2}\beta_2-...-x_{i,p}\beta_p)},\forall i\in\{1,\dots,n\} $$

Die Parameter $\beta_i$ werden mit der Maximum-Likelihood-Methode geschätzt, da eine direkte Berechnung mittels kleinster Quadrate (siehe lineare Regression) nicht möglich ist. Die Schätzwerte werden anhand iterativer Verfahren wie dem Newton-Raphson Algorithmus ermittelt. Da die log-Likelihood Funktion des logistischen Regressionsmodells überall konkav ist, exisitiert ein eindeutiger Maximum-Likelihood Schätzer für die zu bestimmenden Parameter.

Durch Umformung der obigen Gleichung erhält man die sogenannten Logits ($\text{ln}\left(\frac{p_i}{1-p_i}\right)$). In dem Beispiel sieht das wie folgt aus:

Auf der x-Achse, ist das (logarithmierte) Einkommen (metrisch) abgetragen, auf der y-Achse, ob man Raucher ($y=1$) oder Nichtraucher ($y=0$) ist. Es lässt sich erkennen, dass mehr Befragte mit einem niedrigeren Einkommen Nichtraucher sind als die mit einem höheren Einkommen. Ob diese Vermutung stimmt, wird mit der logistischen Regression untersucht.

Info

title	Scatterplot

In einem Scatterplot werden alle Datenpunkte in einem zweidimensionalen Diagramm dargestellt. Auf der x-Achse, ist das (logarithmierte) Einkommen (metrisch) abgetragen, auf der y-Achse, ob man Raucher ($y=1$) oder Nichtraucher ($y=0$) ist.

Aufbau der logistischen Regression

Das logistische Regressionsmodell, auch Logit Modell genannt, ist durch folgende Gleichung gegeben:

$$P(y_i=1|X=x_{( i )})=G(x'_{( i )}\beta)=p_i=\frac{exp(\beta_0+x_{i,1}\beta_1+x_{i,2}\beta_2+...+x_{i,P}\beta_P)}{1+exp(\beta_0+x_{i,1}\beta_1+x_{i,2}\beta_2+...+x_{i,P}\beta_P)}, \forall i\in\{1,\dots,n\} $$

hierbei ist $ G(x)= \frac{e^x}{1+ e^x} $ die Verteilungsfunktion der Logistischen Verteilung.

Die Parameter $\beta_p$ werden mit der Maximum-Likelihood-Methode geschätzt, da eine direkte Berechnung mittels kleinster Quadrate (siehe lineare Regression) nicht möglich ist. Die Schätzwerte werden anhand iterativer Verfahren wie des Newton-Raphson Algorithmus ermittelt. Da die log-Likelihood Funktion des logistischen Regressionsmodells überall konkav ist, exisitiert ein eindeutiger Maximum-Likelihood Schätzer für die zu bestimmenden Parameter.

Interpretation der Parameter und anderen Kenngrößen

Die Interpretation der marginalen Effekte dieser Modellklasse unterscheidet sich deutlich vom linearen Regressionsmodell. Die marginalen Effekte der Logitregression entsprechen dem

Hier soll der Zusammenhang zwischen Einkommen in Euro pro Monat ($income$) und der Wahrscheinlichkeit, ein Auto zu besitzen ($p$), erklärt werden:

Modell: $\text{ln}\left(\frac{p_i}{1-p_i}\right)=\beta_0 + \beta_1 \cdot income_i$

Die Interpretation der marginalen Effekte dieser Modellklasse unterscheidet sich deutlich vom linearen Regressionsmodell. Die marginalen Effekte der Logitregression entsprechen dem jjDa die marginalen Effekte nicht konstant und deshalb keiner so direkten Interpretation wie im linearen Modell zugänglich sind, werden oft die sogenannten Odds oder die Oddsratio betrachtet. Dabei werden die Odds (für ein kleines Modell mit zwei zu schätzenden Parametern) als $\text{odds}=1x)$ und die Oddsratio als

1 \times logincome_i)}{1+exp(\beta_0+\beta_1 \times logincome_i)}\)

Geschätzte Parameter: $\hat{\beta}_0 = -2.117, \quad \hat{\beta}_1=0.174$

Die geschätzten Parameter lassen darauf schließen, dass ein höheres Einkommen einen positiven Effekt auf das Rauchverhalten hat ($\hat{\beta}_1>0$).

Es lassen sich jedoch auch wie bei einem linearen Regressionsmodell Wahrscheinlichkeiten vorhersagen, indem man Werte für alle unabhängigen Variablen einsetzt. Hier ein Beispiel:

Wahrscheinlichkeit, mit der laut dem geschätzten Modell, eine Person, die 2000€ netto pro Monat verdient, raucht:

\(\hat{p}_i=\frac{exp(-2.117+0.174 \times \ln(2000)

\[\text{OR}=\frac{\text{odds}(x+1)}{\text{odds}(x)}=\frac{\frac{G(x+1)}{1-G(x+1)}}{\frac{G(x)}{1-G(x)}}=\frac{exp(\beta_0+\beta_1(x+1))}{exp(\beta_0+\beta_1x)}=exp(\beta_1),\;\;\text{wobei}\;G(x)=\frac{exp(\beta_0+\beta_1x\beta_0+\beta_1x)}\]

dargestellt. Zieht man den Logarithmus von dieser Gleichung, wird unser Modell linear in den Koeffizienten und man kann die gewohnte Interpretation wie in der linearen Regression anwenden. Wird $x_1$ ceteris paribus um eine Einheit erhöht (alle anderen erklärenden Variablen verbleiben auf dem alten Wert), verändern sich die Odds um $exp(\beta_1)$, also um $\beta_1\cdot 100\%$. Inhaltlich stellen die Odds die Chance oder ein Risiko dar. In unserem Beispiel wäre dies die "Chance", ein Auto zu besitzen. Die Koeffizienten geben dann an, um wieviel Prozent sich das Risiko oder die Chance erhöht, wenn man eine der unabhängigen Variablen um eine Einheit erhöht (ceteris paribus).

Hat die abhängige Variable mehr als zwei Ausprägungen (J + 1), ist also multinomial skaliert wird das multinomiale Logitmodell verwendet. Wenn die Fehlerterme unabhängig und gleichverteilt nach der Gumbel Verteilung sind, ergibt sich als Modellgleichung für die Wahrscheinlichkeit, dass $y_i$ die Ausprägung j annimmt:

$$P(y_i=j|X=x_{( i)})=p_{ij}=\frac{exp(x_{( i )}\prime\beta_j)}{1+\sum_{h=1}^J exp(x_{( i )}\prime\beta_h)},\forall j\in\{1,\dots,J\}$$

Hierbei ist zu beachten, dass zur Parameteridentifikation eine Basiskategorie derart angenommen werden muss, dass beispielsweise gilt $\beta_0=0$. Sonst können die Parameter nicht eindeutig geschätzt werden. Anders ausgedrückt reicht es, J Wahrscheinlichkeiten zu berechnen, um J + 1 Wahrscheinlichkeiten zu bestimmen, da sie sich insgesamt zu eins addieren müssen. Im Fall von J + 1 = 2 landet man wieder beim Standard logistischen Modell (siehe oben).

Komponenten und Begriffe

Die Güte des Modells

1. Gesamtzahl an Beobachtungen:

-2.117+0.174 \times \ln(2000))}=0.311\)

Eine Person mit 2000€ Lohn pro Monat raucht also mit einer vorhergesagten Wahrscheinlichkeit von 31.1%.

Die marginalen Effekte sind nicht konstant und deshalb keiner so direkten Interpretation wie im linearen Modell zugänglich. Außerdem ermöglichen die vorhergesagten Wahrscheinlichkeiten nur spezielle Aussagen. Deshalb werden oft die sogenannten Odds, Log-Odds (Logits) oder die Odds-Ratio betrachtet.

Die Odds sind folgendermaßen definiert:

$$\text{odds}(x_{( i )}) =\frac{p_i}{1-p_i}=\frac{\frac{exp(\beta_0+x_{i,1}\beta_1+...+x_{i,P}\beta_P)}{1+exp(\beta_0+x_{i,1}\beta_1+...+x_{i,P}\beta_P)}}{1-\frac{exp(\beta_0+x_{i,1}\beta_1+...+x_{i,P}\beta_P)}{1+exp(\beta_0+x_{i,1}\beta_1+...+x_{i,P}\beta_P)}}=exp(\beta_0+x_{i,1}\beta_1+...+x_{i,P}\beta_P)$$

Die Odds werden oft als "Chance" oder "Risiko" bezeichnet, sie geben das Verhältnis von Wahrscheinlichkeit zur Gegenwahrscheinlichkeit an. Im Beispiel sieht das wie folgt aus:

"Chance" einer Person mit 2000€ Einkommen pro Monat auf Raucher sein:

$\text{odds}(2000)=\frac{0.311}{1-0.311}=exp(-2.117+0.174\cdot \ln(2000))=0.451$

Eine Person mit diesem Einkommen hat ein (1 - 0.451) = 54.9% niedrigeres Risiko, ein Raucher zu sein, als Nichtraucher zu sein.

Da die Odds exponentiell sind, bietet sich an, sie zu logarithmieren, um Zusammenhänge zu linearisieren. So entstehen die Log-Odds, auch Logits genannt:

$$\ln\left(\frac{p_i}{1-p_i}\right)=\beta_0+x_{i,1}\beta_1+...+x_{i,P}\beta_P$$

Der Vorteil ist hier, dass nun die Definition der "Basiswahrscheinlichkeit" keine Rolle mehr spielt. Ist zum Beispiel die Wahrscheinlichkeit, Raucher zu sein, 0.3 (und die Gegenwahrscheinlichkeit somit 0.7), nehmen die Odds den Wert $\text{odds}=\frac{0.3}{0.7}=0.43$ an. Dreht man die Definition nun um, ist also $p_i$ die Wahrscheinlichkeit, kein Raucher zu sein, sind die Odds $\text{odds}=\frac{0.7}{0.3}=2.33$, obwohl sich an den Daten nichts geändert hat. Die Logits beheben dieses Problem, da sie symmetrisch um die Null sind ($\ln\left(\frac{0.3}{0.7}\right)=-0.85$ und $\ln\left(\frac{0.7}{0.3}\right)=0.85$).

Die Odds-Ratio setzt nun die Odds in Relation:

$$\text{OR}=\frac{\text{odds}(x_{i,p}+1)}{\text{odds}(x_{i,p})}=\frac{\frac{G(x_{i,p}+1)}{1-G(x_{i,p}+1)}}{\frac{G(x_{( i)})}{1-G(x_{( i)})}}=\frac{exp(\beta_0+\beta_1x_{i,1}+...+\beta_j(x_{i,p}+1)+...+\beta_Px_{i,P})}{exp(\beta_0+\beta_1x_{i,1}+...+\beta_px_{i,p}+...+\beta_Px_{i,P})}=exp(\beta_p),$$

wobei $G(x_{( i)})=\frac{exp(\beta_0+\beta_1x_{i,1}+...+\beta_px_{i,p}+...+\beta_Px_{i,P})}{1+exp(\beta_0+\beta_1x_{i,1}+...+\beta_px_{i,p}+...+\beta_Px_{i,P})}$.

Ist die Odds-Ratio größer als Eins, bedeutet dies, dass die Variable $X_p$ einen positiven Effekt auf die abhängige Variable hat, denn die Odds (die "Chance"/das "Risiko") sind größer, wenn man die Variable um eins erhöht (ceteris paribus). Bei einer Odds-Ratio von kleiner Eins hat diese Variable einen negativen Einfluss. Bei $\text{OR}=1$ hat $X_p$ keinen Einfluss, da die Odds gleich sind. In unserem Beispiel sieht das so aus:

Odds-Ratio für die Variable Einkommen:

$\text{OR}=\frac{\text{odds}(logincome_i+1)}{\text{odds}(logincome_i)}=exp(\beta_1)=exp(0.174)=1.190$

Auch an der Odds-Ratio kann man sehen, dass die Variable Einkommen einen postiven Effekt auf das Rauchverhalten hat. Genauer gesagt, ist das Risiko, Raucher zu sein, um 19% höher, wenn man 1 Einheit logarithmiertes Einkommen mehr verdient.

Diese Interpretation lässt sich nun verallgemeinern:

Der geschätzte Koeffizient $\hat{\beta}_p$ gibt an, um wie viel sich die Chance oder das Risiko erhöht (oder verringert), nämlich um $\hat{\beta}_p \times 100\%$, wenn man die Variable $X_p$ um eine Einheit erhöht (ceteris paribus).

Eine ähnliche Interpretation gilt auch für erklärende Dummy-Variablen. Im Folgenden nehmen wir als erklärende Variable das Geschlecht hinzu. Um dies grafisch zu veranschaulichen, wird wieder ein Scatterplot erzeugt, wobei die verschieden farbigen Punkte nun nach Geschlecht getrennt sind:

Anhänge

patterns	.R, .sas, .*do

Image Added

Info

title	Scatterplot nach Geschlecht

Dieser Scatterplot enthält die gleichen Datenpunkte wie der obige, jedoch sind nun die Datenpunkte, die von Männern stammen, blau und die, die von Frauen stammen, rot eingefärbt. So lassen sich weitere Zusammenhänge visualisieren.

Rechnet man nun eine Logit-Regression, bekommt man folgende Schätzwerte für die Koeffizienten:

Beispiel mit Dummy-Variable (Geschlecht):

Zu schätzendes Modell: $p_i=\frac{exp(\beta_0+\beta_1\times logincome_i+\beta_2\times sex_i)}{1+exp(\beta_0+\beta_1\times logincome_i+\beta_2\times sex_i)}$

Geschätzte Parameter: $\hat{\beta}_0 = -1.645 \quad \hat{\beta}_1 = 0.124, \quad \hat{\beta}_2 = -0.240$

Die Interpretation der Koeffizienten $\hat{\beta}_0$ und $\hat{\beta}_1$ sind genau gleich, wie bei der einfachen logistischen Regression. Die Interpretation des Koeffizienten vor der Dummy-Variablen ($\hat{\beta}_2$) erfolgt sehr ähnlich. Bei kontinuierlichen Variablen wurden die Koeffizienten bei einer Erhöhung der Variablen um eine Einheit ceteris paribus interpretiert. Erhöht man eine Dummy-Variable um eine Einheit, bedeutet dies, dass man sie von 0 auf 1 setzt, hier also von "männnlich" (sex = 0) auf "weiblich" (sex = 1). Der Schätzwert beschreibt dann wieder eine Änderung in der Chance/dem Risiko.

Interpretation mit Dummy-Variable:

$\hat{\beta}_1=0.124 \quad \Rightarrow$ Eine Einkommenssteigerung um einen Euro (im logarithmierten Einkommen) erhöht das Risiko, Raucher zu sein, um ungefähr 12.4%.

$\hat{\beta}_2=-0.240 \quad \Rightarrow$ Eine Frau hat ein 24.0%ig geringeres Risiko, Raucher zu sein, als ein Mann, der gleich viel verdient.

Hat die abhängige Variable mehr als zwei Ausprägungen (J + 1) wird das multinomiale Logitmodell verwendet. Die Wahrscheinlichkeit, dass $y_i$ die Ausprägung j annimmt, ergibt sich als:

$$P(y_i=j|X=x_{( i)})=p_{ij}=\frac{exp(x'_{( i )}\beta_j)}{1+\sum_{h=1}^J exp(x'_{( i )}\beta_h)},\forall j\in\{1,\dots,J\}$$

Hierbei ist zu beachten, dass zur Parameteridentifikation eine Basiskategorie derart angenommen werden muss, dass beispielsweise gilt $\beta_0=0$. Sonst können die Parameter nicht eindeutig geschätzt werden. Anders ausgedrückt: Es reicht J Wahrscheinlichkeiten zu berechnen, um J + 1 Wahrscheinlichkeiten zu bestimmen, da sie sich insgesamt zu eins addieren müssen. Im Fall von J + 1 = 2 landet man wieder beim Standard Logit Modell (siehe oben).

Modellgüte

Da es sich beim Logit-Modell um ein nicht-lineares Modell handelt, ist das Bestimmtheitsmaß (R²) nicht aussagekräftig. Es muss deshalb auf Alternativen zurückgegriffen werden. Im Folgenden werden drei Möglichkeiten vorgestellt.

Pseudo R²

Das R² basiert auf dem Varianzzerlegungssatz, der besagt, dass sich die Varianz der abhängigen Variablen als die Summe eines Varianzteils, der durch das Regressionsmodell erklärt wird, und der Varianz der Residuen (nicht erklärte Varianz) schreiben lässt. Das Bestimmtheitsmaß R² ist der Quotient aus erklärter Varianz und Gesamtvarianz. Als Anteilswert kann das R² Werte zwischen 0 und 1 annehmen. Das R² misst aber nur lineare Zusammenhänge, die es beim Logit-Modell jedoch nicht gibt. Die Definition von „Varianz“ ist im binär-logistischen Fall anders. Als Basis dienen hier Vergleiche der Likelihood Funktion $L$ für das Null- und das vollständige Modell. Das Null-Modell ist das Modell, bei dem alle Parameter außer dem Intercept (also $\beta_1,..., \beta_P$) auf Null gesetzt werden. Das Modell hat folglich keine Erklärungskraft. Das vollständige Modell ist jenes, wie man es vorher spezifiziert hat, einschließlich aller Parameter und Variablen. Die Likelihood gibt dann an, wie wahrscheinlich es ist, dass die vorliegenden Daten erzeugt wurden, wenn das Modell stimmt.

Bekannte „Pseudo R²" sind:

$$\text{McFadden}\quad R^2=1-\frac{\ln(L_{voll})}{\ln(L_{null})}$$

$$\text{Cox&Snell}\quad R^2=1-\left(\frac{L_{null}}{L_{voll}}\right)^{\frac{2}{n}}$$

$$\text{Nagelkerkes}\quad R^2=\frac{1-\left(\frac{L_{null}}{L_{voll}}\right)^{\frac{2}{n}}}{1-(L_{null})^\frac{2}{n}}$$

Intuitiv sind die Pseudo R² hoch, wenn die Likelihood des vollen Modells größer als die des Null-Modells ist, und das volle Modell somit wahrscheinlicher die Daten erzeugt hat.

In unserem Beispiel gilt:

$ \ln(L_{voll}) = -1641$

$ \ln(L_{null}) = -2099$

Durch Exponentieren dieser Zahlen erhält man die Likelohoods. Da die Likelihood des vollen Modells größer ist (log-Likelihood kleiner), liegt es nahe, dass unser Modell Erklärungskraft besitzt. Um dies zu bestätigen, werden die drei vorgestellten Maße einmal vorgerechnet.

Pseudo R² im Beispiel:

$\text{McFadden}\quad R^2=1-\frac{-1641}{-2099}=0.218$

$\text{Cox&Snell}\quad R^2=1-\left(\frac{\exp(-2099)}{\exp(-1641)}\right)^{\frac{2}{2715}}=0.287$

$\text{Nagelkerkes}\quad R^2=\frac{1-\left(\frac{\exp(-2099)}{\exp(-1641)}\right)^{\frac{2}{2715}}}{1-(\exp(-2099)^\frac{2}{2715}}=0.364$

Die Interpretation ist anders als im Kontext eines linearen Zusammenhangs. Man kann nun nicht mehr von einem erklärten Anteil sprechen. Vielmehr entziehen sich die Pseudo R² jeglicher inhaltlicher Interpretation. Es gilt jedoch für alle drei vorgestellten Maße folgende Faustregel:

$R^2>0.2$: Modellanpassung ist akzeptabel

$R^2>0.4$: Modellanpassung ist gut

$R^2>0.5$: Modellanpassung ist sehr gut

Devianz

Die Likelihood $L$ ist die Wahrscheinlichkeit, mit den geschätzten $\beta$-Koeffizienten die empirisch erhobenen Beobachtungswerte zu erhalten, also die Likelihood des vollen Modells. Der Wert $−2\cdot\ln L$ bezeichnet die Devianz, welche approximativ $\chi^2$ verteilt ist und eine Abweichung vom Idealwert darstellt. Ist das Gesamtmodell perfekt, ist $L = 1$ und entsprechend die Devianz gleich 0. Eine daraus resultierende Nullhypothese zum Testen der Gesamtgüte des Modells lautet:

$H_0$: Das Modell besitzt eine perfekte Anpassung.

Der p-Wert zu dieser Nullhypothese entspricht 1 minus dem Wert der Verteilungsfunktion der $\chi^2$-Verteilung an der Stelle $−2\cdot\ln L$. Die Anzahl Freitheitsgrade (df) beträgt $n−P−1$ ($n$ = Stichprobenumfang; $P$ =Anzahl Kovariaten).

$p = 1 - \chi^2_{n-P-1}(-2\cdot\ln L)$

Wenn der p-Wert größer als das vorgegebene Signifikanzniveau ist, kann die Nullhypothese nicht verworfen werden.

Berechnung der Devianz im Beispiel:

$-2\cdot\ln(L)=-2\cdot(-1641)=3282$

Berechnung des p-Wertes im Beispiel:

$p=1-\chi^2_{2715-1-1}(3282)=2\cdot 10^{-13}$

Zu den gängigen Signifikanzniveaus muss die Nullhypothese, dass das Modell eine perfekte Anpassung besitzt, verworfen werden.

Likelihood Ratio Test

Die Devianz hat den Nachteil, dass sie von der Verteilung der Zielvariable abhängt. Der Likelihood Ratio (LR) Test vergleicht daher den empirischen $\ln L$-Wert nicht mit einer perfekten Anpassung, sondern mit der logarithmierten Likelihood des Null-Modells. Null-Modell heißt in diesem Fall, dass eine Schätzung nur mit der Konstanten ($\beta_0$) erfolgt, alle anderen Paramter ($\beta_1,...\beta_P$) also auf Null gesetzt werden. Die Devianz des Null-Modells (Null deviance) wird dann mit der Devianz des vollständigen Modells (Residual deviance) verglichen. Ist diese Differenz zwischen den beiden Werten klein, kann daraus geschlossen werden, dass die Kovariaten nicht zur Trennung von $Y = 1$ und $Y = 0$ beitragen. Die Null-Hypothese lautet:

$H_0$ : $\beta_1 = \beta_2 = ... = \beta_P = 0$

und ist mit dem F-Test der multiplen linearen Regression vergleichbar. Die absolute Differenz der Devianzen ist ebenfalls $\chi^2$ verteilt. Hierbei beträgt der p-Wert 1 minus dem Wert der Verteilungsfunktion der $\chi^2$-Verteilung an der Stelle der Devianzdifferenz (Null-Modell - Schätzmodell) und die Freiheitsgrade entsprechen der Anzahl an Kovariaten ($P$).

$p = 1 - \chi^2_P(-2(\ln L_{null} - \ln L_{voll}))$

Ist der p-Wert kleiner als das vorgegebene Signifikanzniveau, kann die Nullhypothese verworfen werden.

Berechnung des p-Wertes im Beispiel:

$-2[-2099-(-1641)]=916$

$\chi^2_1(916)=1$

$p=1-1=0$

Zu den gängigen Signifikanzniveaus kann die Nullhypothese, dass das volle Modell keine Erklärungskraft besitzt, abgelehnt werden.

Hosmer-Lemeshow Test

Der Hosmer-Lemeshow Test basiert auf einem ganz anderen Prinzip. Der Test teilt den Datzensatz nach den vorhergesagten Wahrscheinlichkeiten laut dem geschätzten Modell auf. Die Beobachtungen werden in $g$ Gruppen aufgeteilt, wobei $g$ vorher festgelegt werden muss. Normalerweise wird $g=10$ gesetzt. Somit besteht die erste Gruppe aus den Beobachtungen, die eine vorhergesagte Wahrscheinlichkeit zwischen 0% und 10% haben. Die zweite Gruppe besteht dann aus den Beobachtungen, die eine vorhergesagte Wahrscheinlichkeit zwischen 10% und 20% haben, und so weiter. Laut dem Test ist das Modell korrekt spezifiziert, wenn die beobachteten Häufigkeiten nicht zu sehr von den erwarteten Häufigkeiten (z.B. sollten in der ersten Gruppe 10% der Beobachtungen $y=1$ haben) abweichen. Diese Abweichung wird mit dem $\chi^2$-Test getestet.

Formal gesehen wird folgende Nullhypothese beim Hosmer-Lemeshow Test getestet:

$H_0$ : Das Modell ist korrekt spezifiziert.

Ist der p-Wert kleiner als das vorgegebenen Signifikanzniveau, muss die Nullhypothese abgelehnt werden. Das Modell hätte damit eine schlechte Anpassung.

Info

title	Maximum-Likelihood Estimator

Ein interaktives Tool für den Maximum-Likelihood Estimator wurde vom Institut für Meteorologie an der Freien Universität Berlin entwickelt.

Modellannahmen und deren Überprüfung

Keine Ausreißer

Für jede Ausprägung der abhängigen Variablen sollten mindestens 25 Beobachtungen vorliegen. Außerdem sollten keine Ausreißer, also Werte, die sehr schlecht zum Modell passen, vorkommen. Überprüfen lässt sich dies nicht genau, dennoch lohnt sich immer ein Blick auf den Residuenplot.

Multikollinearität

Wenn zwei oder mehrere metrische erklärende Variablen im Logit-Modell vorkommen und die Varianz der jeweiligen geschätzten Koeffizienten sehr groß ist, so ist dies ein Hinweis auf Multikollinearität. Das bedeutet, dass zwei oder mehrere Variablen stark miteinander korrelieren. In diesem Fall sind die Schätzergebnisse nicht verlässlich und die Standardfehler werden sehr groß.

Zur genaueren Prüfung berechnet man den Variance Inflation Factor (VIF) und die paarweisen Korrelationen. Liegt der VIF unter 5 und die paarweisen Korrelation unter 0,8 ist in der Regel nicht von Multikollinerität auszugehen. Bei Multikollinearität wird man in der Regel eine der metrischen Variablen von der Analyse ausschließen.

Vorhersage und ROC (Receiver-Operating-Characteristic)-Curve

Wie bereits dargestellt kann man mit einem geschätzten Logit-Modell Wahrscheinlichkeiten vorhersagen. Dies ist in der Praxis aber nicht immer sinnvoll. Gerade im klinischen Kontext ist eine genaue Klassifizierung notwendig, z.B. bei Diagnosetests (Krankheit liegt vor: Ja/Nein). Es stellt sich also die Frage, ab welcher Wahrscheinlichkeit $y$ auf $1$ gesetzt wird. Ein Schwellenwert von 0.5 (was die einfachste Lösung wäre) ist jedoch nicht immer ratsam, man möchte nämlich meistens seine Trefferquote (oder etwas Vergleichbares) maximieren. Dazu benötigt man eine Klassifikationsmatrix.

Klassifikationsmatrix

Eine Klassifikationsmatrix enthält das Merkmal $y$ aller Beobachtungen und wie sie klassifiziert bzw. vorhergesagt wurden.

Vorhergesagter Wert/

Wahrer Wert

$\hat{y}=1$

$\hat{y}=0$

$\Sigma$

$y=1$

True Positive (TP)

False Negative (FN)

alle Positiven

$y=0$

False Positive (FP)

True Negative (TN)

alle Negativen

$\Sigma$

alle vorhergesagt

Positiven

alle vorhergesagt

Negativen

alle Beobachtungen

(n)

Die sogenannte "Hit Rate" ($\text{HR}$), also Trefferquote, ist der Anteil der richtig klassifizierten Beobachtungen an allen Beobachtungen. Sie berechnet sich nach der Formel:

$$\text{HR} = \frac{TP + TN}{n}$$

Auch wenn es naheliegt, den Schwellenwert so zu bestimmen, dass die Hit Rate maximiert wird, ist dies nicht immer sinnvoll. Als Beispiel seien hier seltene Erkrankungen genannt. Ein Verfahren, das die Hit Rate hier maximieren würde, würde jede Beobachtung als negativ klassifizieren, was jedoch nicht der Sinn eines Diagnosetests ist.

Besser geeignet sind deswegen die Größen Sensitivität ($\text{sens}$) und Spezifität ($\text{spec}$). Die Sensitivität ist die Wahrscheinlichkeit, dass eine Beobachtung positiv klassifiziert wird, gegeben sie ist auch positiv ($\mathbb{P}(\hat{y}=1|y=1)$). Die Spezifität ist die Wahrscheinlichkeit, dass eine Beobachtung negativ klassifiziert wird, wenn sie auch negativ ist ($\mathbb{P}(\hat{y}=0|y=0)$). Die Formeln lauten folglich:

$$\text{sens} = \frac{TP}{TP + FN}$$

$$\text{spec} = \frac{TN}{TN + FP}$$

Eine allgemeine Regel für die Festlegung eines Schwellenwerts ist, die Summe von Sensitivität und Spezifität zu maximieren. Eine Veranschaulichung davon stellt die ROC-Kurve dar.

ROC-Curve

Die ROC (Receiver-Operating-Characteristic)-Kurve stellt die Paare von Sensitivität und Spezifität von jedem möglichen Schwellenwert graphisch dar. Dabei ist die Sensitivität normalerweise auf der y-Achse abgetragen, wohingegen auf der x-Achse ($1-\text{spec}$) steht. Je weiter die Kurve von der Winkelhalbierenden entfernt ist, desto besser ist die Klassifizierung anhand des Modells im Allgemeinen. Wäre die ROC-Kurve direkt auf der Winkelhalbierenden, ist die Klassifizierung genauso gut wie einfaches Raten. Den besten Schwellenwert findet man auf der ROC-Kurve an dem Punkt, der am weitesten von der Winkelhalbierenden weg ist. Dort ist die Summe von Sensititvität und Spezifität maximal.

Image Added

Info

title	ROC-Kurve

Das Diagramm zeigt die ROC-Kurve zu dem einfachen Logit-Modell mit einer Variablen (siehe Beispiel oben). Auf der y-Achse ist die Sensitivität abgetragen, auf der x-Achse findet man die Werte (1 - Spezifität), was hier durch die umgedrehte Achse dargestellt ist. Die Datenpaare entsprechen verschiedenen Schwellwerten zur Klassifizierung.

Hier ist die ROC-Kurve für das Beispiel aufgezeichnet. Die Winkelhalbierende ist grau eingezeichnet. Je größer die Fläche unter der Kurve ist (d.h. je weiter sie von der Winkelhalbierenden entfernt ist), desto besser ist das Modell insgesamt. In unserem Beispiel ist die maximale Summe von Sensitivität und Spezifität 1.08, wobei $sens = 0.74$ und $spec = 0.34$ bei einem optimalen Schwellenwert von 0.284 ist. Das bedeutet nun also, wenn man für eine Person vorhersagen möchte, ob diese raucht oder nicht, kann man ihr Einkommen in das das geschätzte Logit-Modell einsetzen, wobei nun die Entscheidungsregel gilt:

$$\hat{y}_i = \begin{cases} 0, & \text{wenn}\quad \hat{p}_i \leq 0.284 \\ 1, & \text{wenn}\quad\hat{p}_i > 0.284\end{cases}$$

Klassifizierung laut des geschätzten Logit-Modells einer Person mit 2000€ Nettoeinkommen:

Geschätztes Modell: $\hat{p}_i=\frac{exp(-2.117+0.174 \times \ln(2000))}{1+exp(-2.117+0.174 \times \ln(2000))}$

Vorhergesagte Wahrscheinlichkeit: $\hat{p}_i(income_i=2000)=0.311$

Die Person wird mit $\hat{y}_i = 1$ klassifiziert, da ihre vorhergesagte Wahrscheinlichkeit oberhalb des Schwellenwertes von 0.284 liegt.

Modellselektion

Nicht nur die eben genannten Größen helfen, das beste Modell unter vielen herauszusuchen. Es gibt auch noch spezielle Größen, die auf Vergleiche zwischen Modellen ausgelegt sind. Eine ausführliche Übersicht über verschiedene Verfahren, Modelle zu selektieren, befindet sich im Artikel über Modellselektion. Hier werden die für das Logit-Modell wichtigen Kriterien vorgestellt.

Problemstellung

Mit keinem Regressionsmodell kann die Realität eins zu eins abgebildet werden. Nimmt man zu viele erklärende Variablen auf, läuft man Gefahr, das Modell zu "overfitten" (überanpassen). Ein überangepasstes Modell erklärt die zum Schätzen verwendete abhängige Variable meist sehr gut, schneidet jedoch in der Vorhersage von Daten außerhalb der verwendeten Stichprobe häufig schlecht ab. Auf der anderen Seite kann ein Modell auch "underfitted" sein, d.h. die aufgenommenen unabhängigen Variablen können die abhängige Variable nur sehr unzureichend erklären.

Das Thema der Modellselektion ist ein allgegenwärtiges in der Statistik/Regressionsanalyse. Dennoch gibt es keine absoluten, objektiven Kriterien, anhand derer entschieden werden kann, ob das eine oder das andere Modell gewählt werden sollte. Vielmehr existieren viele verschiedene Verfahren, die versuchen, zwischen möglichst viel Erklärungsgehalt des Modells und möglichst wenig Komplexität (siehe dazu Ockhams Rasiermesser) abzuwägen.

AIC (Akaike-Information-Criterion)

Das AIC dient dazu, verschiedene Modellkandidaten zu vergleichen. Dies geschieht anhand der logarithmierten Likelihood, die umso größer ist, je besser das Modell die abhängige Variable erklärt. Um nicht komplexere Modelle als durchweg besser einzustufen, wird neben der log-Likelihood noch die Anzahl der geschätzten Parameter als Strafterm mitaufgenommen. Das AIC versucht somit, ein Modell, das die Daten gut beschreibt, gleichzeitig aber nicht zu komplex ist, zu selektieren.

$$\text{AIC}(P)=-2\ln(\hat{L})_P+2P $$

In der Formel steht $P$ für die Anzahl der im Modell enthaltenen Parameter und $\hat{L}$ für den Wert der Likelihoodfunktion. Das Modell mit dem kleinsten AIC wird bevorzugt.

Das AIC darf nicht als absolutes Gütemaß verstanden werden. Auch das Modell, welches vom Akaike Kriterium als bestes ausgewiesen wird, kann eine sehr schlechte Anpassung an die Daten aufweisen. Die Anpassung ist lediglich besser als in den Alternativmodellen.

BIC (Bayesian-Information-Criterion)

Das BIC (auch SIC, Schwarz Information Criterion, genannt) ist dem AIC sehr ähnlich. Zur Bewertung der Modellgüte wird der Wert der logarithmierten Likelihood herangezogen. Davon wird als Strafterm die Anzahl der geschätzten Parameter multipliziert mit dem natürlichen Logarithmus der Anzahl der Beobachtungen abgezogen. Im Gegensatz zum Akaike Kriteriuim passt sich der Strafterm an die Größe der Stichprobe an. Schon ab einer Stichprobengröße von acht $(\ln(8)=2,07944>2)$ bestraft das BIC komplexere Modelle stärker als das AIC.

\[BIC(P)=-2\cdot\ln(\hat{L})_P+|P|\ln(n)\]

In der Formel steht $P$ für die Anzahl der im Modell enthaltenen Parameter und $\hat{L}$ für den Wert der Likelihoodfunktion. Das Modell mit dem kleinsten BIC wird bevorzugt. Auch für das BIC gilt, dass das Modell mit dem kleinsten Wert des Informationskriteriums eine bessere Anpassung aufweist als die Alternativmodelle. Dennoch kann der Gesamterklärungsgehalt des Modells gering sein.

In der Praxis finden beide Auswahlkriterien Anwendung und werden oft sogar zusammen verwendet. Insgesamt ist das AIC jedoch gebräuchlicher als das BIC.

Komponenten und Begriffe

Die Güte des Modells

1. Gesamtzahl an Beobachtungen:

Die gesamte Anzahl an Beobachtungen im Datensatz entspricht der Anzahl an Zeilen. Diese wird häufig mit n gekennzeichnet. In diesem Datensatz gibt es insgesamt 3468 Beobachtungen.

2. Gelöschte Beobachtungen:

Bei fehlenden Werten in Variablen können Beobachtungen für die Modellanalyse nicht berücksichtigt werden. Im Beispiel sind dies 753 Beobachtungen.

3. Zahl der Beobachtungen:

Hiermit ist die Zahl der Beobachtungen gemeint, die zur Anpassung des Modells genutzt wird. Das bedeutet, dass diese Anzahl sich aus der Differenz der Gesamtzahl an Beobachtungen und den gelöschten Beobachtungen auf Grund von fehlenden Werten in den gewünschten Variablen ergibt. In dem Modell wurden 2715 Beobachtungen genutzt.

6. Pseudo R²

Die gesamte Anzahl an Beobachtungen im Datensatz entspricht der Anzahl an Zeilen. Diese wird häufig mit n gekennzeichnet. In diesem Datensatz gibt es insgesamt 100 Beobachtungen.

2. Gelöschte Beobachtungen:

Bei fehlenden Werten in Variablen können Beobachtungen für die Modellanalyse nicht berücksichtigt werden. Im Beispiel sind dies 0 Beobachtungen.

3. Zahl der Beobachtungen:

Hiermit ist die Zahl der Beobachtungen gemeint, die zur Anpassung des Modells genutzt wird. Das bedeutet, dass diese Anzahl sich aus der Differenz der Gesamtzahl an Beobachtungen und den gelöschten Beobachtungen auf Grund von fehlenden Werten in den gewünschten Variablen ergibt. In dem Modell wurden 100 Beobachtungen genutzt.

6. Pseudo R²

Das R² basiert auf dem Varianzzerlegungssatz, der besagt, dass sich die Varianz der abhängigen Variablen als die Summe eines Varianzteils, der durch das Regressionsmodell erklärt wird und der Varianz der Residuen (nicht erklärte Varianz) schreiben lässt. Das Bestimmtheitsmaß R² ist der Quotient aus erklärter Varianz und Gesamtvarianz. Als Anteilswert kann das R² Werte zwischen 0 und 1 annehmen. Das R² misst aber nur lineare Zusammenhänge, den es beim Logit-Modell jedoch nicht gibt. Die Definition von „Varianz“ ist im binär-logistischen Fall anders. Als Basis dienen hier Vergleiche der Likelihood Funktion L für das Null- und das vollständige Modell. Bekannte "Pseudo R²" sind:

$$\text{McFadden}\quad R^2=1-\frac{L_{null}}{L_{voll}}$$

$$\text{Cox&Snell}\quad R^2=1-\left(\frac{L_{null}}{L_{voll}}\right)^{\frac{2}{n}}$$

$$\text{Nagelkerkes}\quad R^2=\frac{1-\left(\frac{L_{null}}{L_{voll}}\right)^{\frac{2}{n}}}{1-(L_{null})^\frac{2}{n}}$$5893. Die Interpretation ist anders als im Kontext eines linearen Zusammenhangs. Man kann nun nicht mehr von einem erklärten Anteil sprechen. Vielmehr entziehen sich die Pseudo R² jeglicher inhaltlicher Interpretation. Es gilt jedoch für alle drei vorgestellten Maße folgende Faustregel:

$R^2>0.2$: Modellanpassung ist akzeptabel

$R^2>0.4$: Modellanpassung ist gut

$R^2>0.5$: Modellanpassung ist sehr gut Besitzen eines Autos carincome

logincome) die erklärende Variable.

11. Geschätzte Parameter:

Bei einer einfachen logistischen Regression gibt es zwei geschätzte Parameter: $ \beta_0$ für den Achsenabschnitt und $ \beta_1$ für die Steigung in den Logits. Die Interpretation im Logit Modell ist schwieriger als im linearen Regressionsmodell. Der Parameter $ \beta_0$ ist nicht sinnvoll interpretierbar. Der "Steigungsparameter" $\beta_1$ gibt an, wie stark die erklärende Variable (Einkommen) die Wahrscheinlichkeit für das Eintreten des Ereignisses (

Besitzen eines Autos Auto3441888 0530702 income34418880530702 Euro die Chance, ein Auto zu besitzen 53% j

p}}\)):

Da die Parameter basierend auf einer Zufallsstichprobe geschätzt werden, unterliegen diese Schätzungen einer gewissen Ungenauigkeit, die durch die Standardabweichung der Schätzung quantifiziert wird. Standardfehler werden genutzt, um statistische Signifikanz zu überprüfen und um Konfidenzintervalle zu bilden.

13. Z-Statistik (empirischer Z-Wert).

Mit Hilfe eines Wald- oder Likelihood-Ratio Tests lässt sich prüfen, ob die Nullhypothese, dass ein Koeffizient gleich 0 ist, abgelehnt werden kann. Wenn dies nicht der Fall sein sollte, ist davon auszugehen, dass die zugehörige Kovariate keinen signifikaten Einfluss auf die abhängige Variable ausübt, d.h. die erklärende Variable ist nicht sinnvoll, um die Eigenschaften der abhängigen Variablen zu erklären.

Hypothese: $H: \beta_p=0$ gegen $A: \beta_p \neq 0$ mit $p=0,1$

Teststatistik: $T_p = \frac{\hat{\beta_p}-0}{\hat{SF_{\beta_p}}}$ mit $p=0,1$

Verteilung unter H:

\beta_p \neq 0Teststatistik = \frac{\hat{\beta_p}-0}{\hat{SF_{\beta_p}Verteilung unter H: p \sim t_{n-(p+1)}\) mit $p=0,1$Testentscheidung (H ablehnen wenn): p > t_{n-(p+1), mit with $p=0,1$

Überprüfung, ob das Nettoeinkommen Einfluss auf das Rauchen hat, anhand der Z-Statistik:

Die Teststatistik vom Parameter für das Nettoeinkommen ist $T_p = \frac{0.0530702}{0.0110797} \approx 4.79$. Diese Teststatistik wird mit dem kritischen Wert verglichen:

$|T_1| = 4.79 > 1.96 = z_{1-\frac{\alpha}{2}}$.

Schon anhand der Teststatistik kann man erkennen, dass die

.

Schon anhand der Teststatistik kann man erkennen, dass die Nullhypothese $\beta_1=0$ hier abgelehnt werden kann, d.h. dass das Einkommen einen signifikanten Einfluss auf das Rauchen hat.

14. p-Wert zur Z-Statistik:

Zusätzlich zur T-Statisik wird meistens ein p-Wert ausgegeben. Aus einer methodisch-praktisch orientierten Perspektive gibt der p-Wert das kleinste Signifikanzniveau an, zu dem die Nullhypothese $\beta_p=0$ gerade noch abgelehnt werden kann. Ist also das tatsächliche Signifkanzniveau $ \alpha $, welches vor dem Test gewählt wird, geringer als der p-Wert, so kann die Nullhypothese nicht abgelehnt werden.

Überprüfung, ob das Einkommen Einfluss auf das Rauchen hat, anhand des p-Wertes:

Im Beispiel liegt der p-Wert zur Nullhypothese $\beta_1=0$

hier abgelehnt werden kann, d.h. Besitzen eines Autos hat.

14. p-Wert zur Z-Statistik:

Zusätzlich zur Z-Statisik wird meistens ein p-Wert ausgegeben. Der p-Wert gibt die Wahrscheinlichkeit an, dass die Nullhypothese $\beta_p=0$ zutrifft.

Überprüfung, ob das Einkommen Einfluss auf das Besitzen eines Autos hat, anhand des p-Wertes:

Rauchen ausübt, und zwar zu den gängigen Signifikanzniveaus von 5% und 1%.

Der p-Wert gibt die Wahrscheinlichkeit an, dass, gegeben dass die Nullhypothese erfüllt ist, wir eine solche oder noch stärker von der Nullhypothese abweichende Teststatistik bzw Stichprobe beobachten. Das heißt er macht eine Aussage über die Wahrscheinlichkeit der Beobachtung der Stichprobe, nicht aber direkt über die Wahrscheinlichkeit der Nullhypothese selbst.

Zum p-Wert gibt es viele Missverständnisse, selbst in veröffentlichter Literatur. Aussagen wie z.b. dass "der p-Wert den Fehler 1. Art wieder gibt" bzw. "die Wahrscheinlichkeit ist, dass unsere Hypothese wahr ist, gegeben, dass der Test abgelehnt wird", sind falsch und sollten in Arbeiten vermieden werden.

Eine gute Quelle für die den richigen Umgang und ein tieferes Verständnis vom p-Wert gibt es beispielsweise hier

Im Beispiel liegt der p-Wert zur Nullhypothese $\beta_1=0$ bei 0.000. Daraus kann man schließen, dass das Einkommen einen signifikanten Einfluss auf das Besitzen eines Autos ausübt, und zwar zu allen gängigen Signifikanzniveaus

.

15. 95%-Konfidenzintervall:

Konfidenzintervalle sind im Allgemeinen eine Möglichkeit, die Genauigkeit der Schätzung zu überprüfen. Ein 95%-Konfidenzintervall ist der Bereich, der im Durchschnitt in 95 von 100 Fällen den tatsächlichen Wert des Parameters einschließt.

Konfidenzintervall für den Steigungsparameter in der Beispielregression:

[0.

0530702 0110797 00530702 01107970313543074786

Outputs in den verschiedenen Statistikprogrammen

Hier werden die Outputs aus den verschiedenen Statistikprogrammen vorgestellt. Die Outputs einer logistischen Regression unterscheiden sich teils in den verschiedenen Statistikprogrammen. Sowohl sind die Werte unterschiedlich angeordet, als auch werden teils nicht die gleichen Werte ausgegeben.

Im Folgenden werden die Werte 1-15, wenn vorhanden, an den Output der verschiedenen Statistikprogramme geschrieben, damit die Werte im Output gefunden werden können.

Output in R

Image Removed

Image RemovedModellannahmen und deren Überprüfung

abhängige Variable (\(y\))	dichotom (binomial), multinomial
unabhängige/n Variable/n (\(x\))	beliebiges Skalenniveau (die Skalenniveaus der einzelnen \(x_1,...,x_

Bereichsverknüpfungen

Seitenhierarchie

Versionen im Vergleich

Alte Version 40

Neue Version 292

Schlüssel

Inhaltsverzeichnis

Variablen und deren Zusammenhang

Variablen und deren Zusammenhang

Aufbau und Interpretation der logistischen Regression

Aufbau der logistischen Regression

Interpretation der Parameter und anderen Kenngrößen

Komponenten und Begriffe

Modellgüte

Pseudo R²

Devianz

Likelihood Ratio Test

Hosmer-Lemeshow Test

Modellannahmen und deren Überprüfung

Keine Ausreißer

Multikollinearität

Vorhersage und ROC (Receiver-Operating-Characteristic)-Curve

Klassifikationsmatrix

ROC-Curve

Modellselektion

Problemstellung

AIC (Akaike-Information-Criterion)

BIC (Bayesian-Information-Criterion)

Komponenten und Begriffe

Die Güte des Modells

Schätzergebnisse

Outputs in den verschiedenen Statistikprogrammen

Output in R

Output in Stata

Output in SPSS

Output in SAS