Sie zeigen eine alte Version dieser Seite an. Zeigen Sie die aktuelle Version an.

Unterschiede anzeigen Seitenhistorie anzeigen

« Vorherige Version anzeigen Version 7 Nächste Version anzeigen »

Die ordinale Regression umfasst Modelle, deren Zielvariable ordinal skaliert ist, d.h. es liegt eine kategoriale Variable vor deren Ausprägungen eine Rangordnung vorweisen, z.B. Schulnoten („1“, „2“, „3“, …“6“), Ausprägung einer Krankheit („gesund“, „leicht krank“, „mittel krank“, „schwer krank“) oder Zufriedenheit mit einem Produkt (Skala von 0 bis 10).  Dabei gilt, dass die Abstände zwischen den Ausprägungen nicht interpretierbar sind, d.h. dass z.B. der Abstand zwischen den Schulnoten „1“ und „2“ nicht dem Abstand der Noten „4“ und „5“ entsprechen muss, weshalb die Nutzung von linearen Regressionsmodellen unangemessen ist. Anstelle von ordinalen Regressionsmodellen könnten Daten mit ordinaler Skalierung auch mit multinominalen Logitmodellen (siehe dazu Artikel zu logistischen Regressionen) untersucht werden. Jedoch würde in diesem Fall die Information über die Reihenfolge der kategorialen Ausprägungen nicht genutzt werden, was zu ineffizienten Schätzern führen würde. Je nachdem welche Annahme über die Verteilung der Fehlerterme getroffen wird, sprechen wir von geordneten logistischen Regressionen (logistisch verteilt) oder geordneten Probitregressionen (standardnormalverteilt). Wenn eine höhere Kategorie nur erreicht werden kann, wenn eine niedrigere schon erreicht wurde, können sogenannte sequentielle Modelle genutzt werden. Ein Beispiel ist die Variable Dauer der Arbeitslosigkeit unterteilt in verschiedene Kategorien: "1 Jahr", "2 Jahre", "mehr als 2 Jahre". Eine Person kann nur zwei Jahre arbeitslos sein, wenn sie schon ein Jahr arbeitslos war.

Inhaltsverzeichnis

Variablen und deren Zusammenhang


abhängige Variable (\(y\))ordinal (Reihenfolge in Ausprägungen liegt vor)
unabhängige/n Variable/n (\(x\))beliebiges Skalenniveau (die Skalenniveaus der einzelnen \(x_1,...,x_p\) dürfen sich auch unterscheiden, liegt eine kategorische Variable vor, so muss eine Zerlegung in Dummy-Variablen stattfinden)


Das Ziel der ordinalen Regression ist die Vorhersage von Wahrscheinlichkeiten für das Auftreten der einzelnen Kategorien in Abhängigkeit von Kovariablen.

Ein Beispiel für die Anwendung der ordinalen Regression stellen Likert-Skalen dar. Sie sind ein Spezialfall von Ordinalskalen, das heißt die Werte einer solchen Skala sind verschiedenartig und lassen sich einer eindeutigen Rangfolge zuordnen. Likert-Skalen werden genutzt, um persönliche Einstellungen (Zustimmung/Ablehnung) von Individuen zu messen, weshalb sie häufig als Antwortskalen in Umfragen verwendet werden. Typischerweise haben sie 3, 5, 7 oder 10 Werte.

Typische Likert-Skalen sind:

  • überhaupt nicht (1) - wenig (2) - mittel (3) - stark (4) - sehr stark (5)
  • trifft zu (1) - teils/teils (2) - trifft nicht zu (3)

Die erste Variable hat 5 Kategorien, die mit den Werten 1, 2, 3, 4 und 5 kodiert werden. 

Einführung in das Beispiel: Lebenszufriedenheit




Motivation über Schwellenwertmodelle 

Ordinale Regressionsmodelle werden über Schwellenwertmodelle motiviert. Eine nicht beobachtbare Hintergrundvariable (auch latente Variable genannt)  \(y^*\) wird angenommen, die metrisch ist:  mit Modell: \(y^*_i=x\prime_i\beta+\epsilon_i, \quad\epsilon_i|x_{( i )}\sim\mathcal{N}(0,1) \text{ i.i.d.}\;\; i=1,\dots,n\). Statt dem Zusammenhang zwischen der beobachtbaren ordinalen Variable und der Einflussvariablen, wird der Zusammenhang zwischen der latenten metrischen Variable und den Einflussvariablen geschätzt. Dabei stellen die beobachtbaren Kategorien (mit endlicher Anzahl an Kategorien (m + 1)) das Überschreiten der Schwelle der latenten metrischen Variablen dar:

$$y_i={\begin{cases}0\ ,&{\text{für}}&-\infty<y^*_i\leq\alpha_1\ ,\\1\ ,&{\text  {für}}&\alpha_1<y^*_i\leq\alpha_2\ ,\\&\vdots\\m\ ,&{\text{für}}&\alpha_m<y^*_i\leq\infty\end{cases}}$$

\(\alpha_j \) stehen für geordnete Schwellenwerte, die neben den \( \beta \) auch geschätzt werden müssen. Weil der Wertebereich der latenten Variable nicht bekannt ist, nimmt man \( \alpha_0 = - \infty \) und \( \alpha_m = \infty \) an.

Die folgende Abbildung zeigt den Zusammenhang für eine Likert-Skala mit 3 Kategorien und einer Einflussvariablen \(x \). Der rote Punkt hat im ersten Bild die Koordinaten \( x = 5,9 \) und \(y^* = 0.05 \). Da \( y^*\) zwischen \(\alpha_1 = -4\) und \( \alpha_2 = 1 \) liegt, nimmer der \(y\) - Wert im zweiten Bild einen Wert von \( 2 \) an. 

Bei der ordinalen Regression werden die Wahrscheinlichkeiten für das Auftreten von Kategorien \( j = 1, 2, ..., m \) durch erklärende Variablen \(x_1, x_2, ..., x_n\) mit Hilfe von bedingten kumulierten Wahrscheinlichkeiten \(P(y \leq j |x) = P(Y_i = 1) + ... + P(Y_i = j)\) geschätzt, daher spricht man auch von kumulativen (Logit-/Probit-) Modellen.

Weil \( P(Y_i \leq m) = 1\) gilt, werden nur \(m - 1\) Kategorien modelliert,

Aus der Modellannahme über die latente Variable und das Schwellenwertkonzept ergibt sich das kumulative Modell mit Verteilungsfunktion F

\[P (Y_i \leq 1 | x_i)   = F(\alpha_1 - x' \beta) \]

\[P (Y_i \leq j | x_i)   = F(\alpha_1 - x' \beta) - F(\alpha_{j - 1} - x' \beta), j = 2, ..., m - 1  \]

\[P (Y_i \leq m | x_i)   = 1 - F(\alpha_{m - 1} - x' \beta) \]

Die Wahl von \( F\) bestimmt, ob ein Logit, Probit oder anderes Modell vorliegt.




















Abweichung

Grafischer Zusammenhang zwischen der Hintergrundvariable \(y^*\) und einer Likert-Skala mit 3 Kategorien.

Das kumulative Logit-Modell

Die Wahl der logistischen Funktion \( F(x) = \frac{e^x}{1+ e^x} \) resultiert im kumulativen Logit-Modell - auch Proportional Odds Modell genannt -

\[ P(Y_i \leq j | x_i) = \frac{exp(\alpha_j - x'_i \beta)}{1 + exp(\alpha_j - x'_i \beta)}\]

oder

\[ log( \frac{P(Y_i \leq j | x_i)}{P(Y_i > j | x_i)}) = log( \frac{P(Y_i \leq j | x_i)}{1 - P(Y_i \leq j | x_i)}) = \alpha_j - x'_i \beta \]

Während die Schwellenparameter \( \alpha_j \) kategorienspezifisch sind und monoton in \(j \) steigen, gehen die Einflussvariablen \( x_i \) global ins Modell ein und führen zu globalen Regressionskoeffizienten \( \beta \). Die Parameter \( \alpha_j \) und \( \beta \) werden durch die Maximum-Likelihood (ML) Methode geschätzt. Aus Identifikationsgründen darf die Designmatrix (Matrix der erklärenden Variablen) keinen Intercept enthalten, sonst könnten die Schwellenwerte davon nicht unterschieden werden und blieben unidentifiziert. Da die log-Likelihood Funktion überall konkav ist, existiert ein eindeutiger Maximum-Likelihood Schätzer für die zu bestimmenden Parameter. Die ML-Schätzer sind hierbei konsistent, asymptotisch effizient und asymptotisch normalverteilt.

Geordnete Probitregression

Die geordnete Probitregression folgt den gleichen Überlegungen wie die geordnete logistische Regression. Der Unterschied liegt in der Annahme über die Verteilung der Fehlerterme, welche bei der Probitregression als standard normal verteilt angenommen wird.

Sequentielle Modelle

Neben kumulativen Modellen stellen sequentielle Modelle eine wichtige Modellklasse der ordinalen Regression dar. Sequentielle Modelle werden genutzt, wenn eine höhere Kategorie nur erreicht werden kann, wenn eine niedrigere schon erreicht wurde, d.h. wenn die Kategorien nur sukzessiv/schrittweise erreicht werden können. Ein Beispiel ist die abhängige Variable Dauer der Arbeitslosigkeit unterteilt in verschiedene Kategorien: "1 Jahr", "2 Jahre", "mehr als 2 Jahre". Eine Person kann nur mehr als zwei Jahre arbeitslos sein, wenn sie schon zwei Jahr arbeitslos war.

Der schrittweise Übergang zwischen den Kategorien wird dabei durch dichotome Zusammenhänge mit Hilfe von binären Regressionsmodellen modelliert. Wenn ein Übergang nicht stattfindet, endet der schrittweise Mechanismus, d.h. eine Kategorie \(j \) ( \( j = 1, 2, ..., m\) ) ist erreicht. Das sich daraus ergebende sequentielle Modell kann wie folgt beschrieben werden

\[P(Y_i = j | Y_i \geq j , x_i) = F(\beta_{0r} + x_i' \beta)  \]

Wie bei den kumulativen Modellen bestimmt die Wahl der Verteilungsfunktion \(F\) das tatsächliche Modell. Bei der logistischen Verteilungsfunktion, spricht man vom sequentiellen Logit-Modell, während ein sequentielles Probit-Modell vorliegt, wenn die Standardnormalverteilung als Verteilungsfunktion \(F\) gewählt wird. Das Modell kann erweitert werden, indem Koeffizienten \(\beta_j\) genutzt werden, die kategorienspezifische Effekte beschreiben. Für Details siehe Fahrmeir, Kneib, Lang... 

Im folgenden Artikel werden sequentielle Modelle, sowie Probitmodelle, nicht im Detail ausgeführt. Der Fokus liegt auf kumulativen Logit-Modellen. die in der praktischen Anwendung am häufigsten genutzt werden.


Interpretation der Parameter und anderer Kenngrößen

Der Quotient \( \frac{P(Y_i \leq j | x_i)}{P(Y_i > j | x_i)}\) wird oft als "Chance" oder englisch "odds" bezeichnet. Odds beschreiben das Verhältnis von Wahrscheinlichkeit zur Gegenwahrscheinlichkeit. (Beispiel)

Da die Odds exponentiell sind, bietet sich an, sie zu logarithmieren, um Zusammenhänge zu linearisieren. So entstehen die Log-Odds, auch Logits genannt:

\[ log(\frac{P(Y_i \leq j | x_i)}{P(Y_i > j | x_i)}) = log(\frac{P(Y_i \leq j | x_i)}{1 - P(Y_i \leq j | x_i)}) = \alpha_j - x'_i \beta \].

Der Vorteil ist hier, dass nun die Definition der "Basiswahrscheinlichkeit" keine Rolle mehr spielt. eigenes Zahlenbeispiel (ähnlich wie bei log Regr.)

Die erklärenden Variablen stehen in einem linearen Zusammenhang mit den logarithmierten Odds.

Die Oddsratio (OR) setzt die Odds in Relation. Wenn eine Einflussvariable \( x_{i1}\) um eine Einheit auf \( x_{i1} + 1\) erhöht wird, gilt

\[ \frac{\frac{P(Y_i \leq j| x_{i1} + 1)}{P(Y_i > j| x_{i1} + 1)}}{\frac{P(Y_i \leq j| x_{i1})}{P(Y_i > j| x_{i1})}} = exp(- \beta_1)\]

Die Odds-Ratio hängt nicht von einer einzelnen Kategorie j ab, sondern nur von den Differenzen in den Kovariaten. Eine wichtige Annahme des kumulativen Logit-Modells ist, dass die Beziehung zwischen jeder möglichen Kombination an Stufenpaaren der Zielvariablen gleich ist. Deswegen kann der Effekt einer erklärenden Variablen durch einen globalen \(\beta\)-Koeffizienten dargestellt werden. Dieser Effekt gilt dann für jeden Stufenwechsel zwischen den Ausprägungen der Zielvariable und ändert sich auch nicht, wenn Kategorien zusammengefasst werden. Daher wird das Modell auch "Proportional Odds"-Modell genannt. Die Annahme ist bekannt unter „proportional Odds“- oder „equal slopes"-Annahme.

Bei einer Odds-Ratio (also \( exp(- \beta_1) \) ), die größer als eins ist, hat die Einflussvariable einen positiven Effekt auf die abhängige Variable, da die Chance \( \frac{P(Y_i \leq j | x_i)}{P(Y_i > j | x_i)}\) größer wird, wenn die Einflussvariable um eine Einheit erhöht wird. Im Gegenzug hat die Variablen einen negativen Einfluss bei einer Odds-Ratio kleiner als eins. Wenn die Odds-Ratio gleich eins ist, hat die Variable keinen Einfluss, weil die Chance/Odds \( \frac{P(Y_i \leq j | x_i)}{P(Y_i > j | x_i)}\) gleich bleibt.

Für die Interpretation der OR gilt:

Die Chance für die Kategorie j oder eine geringere steigt/sinkt um den Faktor \( exp(- \beta)\), falls die erklärende Variable x um eine Einheit erhöht wird.

Dummies

Die Chance für die Kategorie j oder eine geringere steigt/sinkt um den Faktor \( exp(- \beta)\), falls die erklärende Variable x um eine Einheit erhöht wird.


Erhöht man eine Dummy Variable um eine Einheit, setzt man sie von 0 auf 1. Dabei werden die Ergebnisse immer im Vergleich zu Referenzkategorie (des Dummies) interpretiert.

Interpretation der Schwellenwerte

Die Schwellenwerte \(\alpha_j\) sind Konstanten, die für die Kategorien (außer der letzten) der Zielvariable geschätzt werden müssen. Bei der linearen Regression entspricht das arithmetische Mittel dem Schätzer für den Intercept, falls keine Einflussvariablen aufgenommen werden. Vom Prinzip her ähnlich, entsprechen beim kumulativen Logitmodell die geschätzten Schwellenwertparameter der linken Seite der Regressionsgleichung, also den Sprungstellen der empirischen Verteilungsfunktion von Y, wenn für alle Einflussvariablen \(x_i = 0 \) gilt. Im Fall mit Einflussvariablen sind die \(\hat{\alpha}_j\) dann die Sprungstellen der bedingten empirischen Verteilungsfunktion von Y.

In der praktischen Anwendung ist es jedoch nicht üblich, diese zur Interpretation des Modells zu nutzen.


Als Referenzkategorie wird im ordinalen Logitmodell entweder die kleinste oder größte Kategorie der Zielvariable ausgewählt.


Modellgüte

Da es sich beim Logit-Modell um ein nicht-lineares Modell handelt, ist das Bestimmtheitsmaß (R²) nicht aussagekräftig. Es muss deshalb auf Alternativen zurückgegriffen werden. Im Folgenden werden drei Möglichkeiten vorgestellt.

Pseudo R²

Das basiert auf dem Varianzzerlegungssatz, der besagt, dass sich die Varianz der abhängigen Variablen als die Summe eines Varianzteils, der durch das Regressionsmodell erklärt wird und der Varianz der Residuen (nicht erklärte Varianz) schreiben lässt. Das Bestimmtheitsmaß R² ist der Quotient aus erklärter Varianz und Gesamtvarianz. Als Anteilswert kann das R² Werte zwischen 0 und 1 annehmen. Das R² misst aber nur lineare Zusammenhänge, den es beim Logit-Modell jedoch nicht gibt. Die Definition von „Varianz“ ist im diesem Fall anders. Als Basis dienen hier Vergleiche der Likelihood Funktion \(L\) für das Null- und das vollständige Modell. Das Null-Modell ist das Konstantenmodell, bei dem alle Parameter (also \(\beta_1, ...\beta_k\)) auf Null gesetzt werden. Im Unterschied zu nominalen logistischen Modellen, dessen Null-Modell nur aus dem Intercept besteht, enthält das Null-Modell eines kumulativen Logit-Modells die \(\alpha\)-Schätzwerte (Schwellenwertparameter), die den konstanten Part des Modells darstellen. Das Modell hat folglich keine Erklärungskraft. Das vollständige Modell ist jenes, wie man es vorher spezifiziert hat, einschließlich aller Parameter und Variablen. Die Likelihood gibt dann an, wie wahrscheinlich es ist, dass die vorliegenden Daten erzeugt wurden, wenn das Modell stimmt.

Bekannte „Pseudo R²" sind:

\[\text{McFadden } R^2 = 1 - \frac{ln(L_{voll})}{ln(L_{voll})}\]

\[\text{Cox&Snell } R^2 = 1 - \frac{L_{null}}{L_{voll}}^{\frac{2}{n}}\]

\[\text{Nagelkerkes } R^2 = \frac{1 - (\frac{L_{null}}{L_{voll}})^{\frac{2}{n}}}{1 - (L_{null}^{\frac{2}{n}})}\]

Aus den vorliegenden Daten lassen sich folgende Werte für die Likelihood-Funktionen errechnen (siehe Outputs der Statistikprogramme):

\[L_{null} =\]

\[L_{voll} =\]

Hieran lässt sich bereits erkennen, dass das volle Modell wahrscheinlicher die Daten erzeugt hat. Um dies zu bestätigen werden die Pseudo R² nun berechnet:

Berechnung der Pseudo R² im Beispiel:

\[\text{McFadden } R^2 = 1 - \frac{ln(L_{voll})}{ln(L_{voll})}\]

\[\text{Cox&Snell } R^2 = 1 - \frac{L_{null}}{L_{voll}}^{\frac{2}{n}}\]

\[\text{Nagelkerkes } R^2 = \frac{1 - (\frac{L_{null}}{L_{voll}})^{\frac{2}{n}}}{1 - (L_{null}^{\frac{2}{n}})}\]


Die Interpretation ist anders als im Kontext eines linearen Zusammenhangs. Man kann nun nicht mehr von einem erklärten Anteil sprechen. Vielmehr entziehen sich die Pseudo R² jeglicher inhaltlicher Interpretation. Es gilt jedoch für alle drei vorgestellten Maße folgende Faustregel:

\(R^2 > 0.2:\) Modellanpassung ist akzeptabel

\(R^2 > 0.4:\) Modellanpassung ist gut

\(R^2 > 0.5:\) Modellanpassung ist sehr gut

Wenn zwei Modelle miteinander verglichen werden sollen, die nicht ineinander geschachtelt sind, bieten sich die Informationskriterien AIC und BIC an. (Verlinkung)

Devianz

Die Likelihood \(L\) ist die Wahrscheinlichkeit, mit den geschätzten \(\beta\)-Koeffizienten die empirisch erhobenen Beobachtungswerte zu erhalten, also die Likelihood des vollen Modells. Der Wert \(- 2 ln L\) bezeichnet die Devianz, welche approximativ \( \chi^2 \) verteilt ist und eine Abweichung vom Idealwert darstellt. Ist das Gesamtmodell perfekt, ist \( L = 1 \) und entsprechend die Devianz gleich 0. Eine sich daraus resultierenden Nullhypothese zum Testen der Gesamtgüte des Modells lautet:

H0: Das Modell besitzt eine perfekte Anpassung.

Der p-Wert zu dieser Nullhypothese entspricht 1 minus dem Wert der Verteilungsfunktion der \( \chi^2 \)-Verteilung an der Stelle \( - 2 ln L\). Die Anzahl der Freiheitsgerade (df) beträgt \( n-k-1 \) ((\ n\) = Stichprobenumfang; \(k\) = Anzahl Kovariaten).

\[ p = 1 - \chi^2_{n-k-1}(- 2 ln L) \]

Wenn der p-Wert größer als das vorgegebene Signifikanzniveau ist, kann die Nullhypothese nicht verworfen werden.

Berechnung der Devianz im Beispiel:

Berechnung des p-Wertes im Beispiel:

Zu den gängigen Signifikanzniveaus kann die Nullhypothese, dass das Modell eine perfekte Anpassung besitzt, nicht verworfen werden.


Likelihood Ratio Test

Die Devianz hat den Nachteil, dass sie von der Verteilung der Zielvariable abhängt. Der Likelihood Ratio (LR) Test vergleicht daher den empirischen \(ln L\)-Wert nicht mit einer perfekten Anpassung, sondern mit der logarithmierten Likelihood des Null-Modells. Null-Modell heißt in diesem Fall, dass eine Schätzung nur mit den \(\alpha\)s erfolgt, alle anderen Parameter (\(\beta_1,...,\beta_k\)) also auf Null gesetzt werden. Die Devianz des Null-Modells (Null deviance) wird dann mit der Devianz des vollständigen Modells (Residual deviance) verglichen. Je größer die Differenz zwischen den beiden Werten ist, desto mehr Einflusskraft haben die erklärenden Variablen insgesamt.

Die Null-Hypothese lautet:

\[H_{0}: \beta_1 = \beta_2 = ... = \beta_k = 0\]

und ist mit dem F-Test der multiplen linearen Regression vergleichbar. Die absolute Differenz der Devianzen ist ebenfalls \( \chi^2 \) verteilt, so dass der p-Wert 1 minus dem Wert der Verteilungsfunktion der \(\chi^2\)-Verteilung an der Stelle der Devianzdifferenz (Null-Modell- Schätzmodell) beträgt und die Freiheitsgrade gleich der Anzahl der Kovariaten entspricht (\(k\)).

\[p = 1 - \chi^2_k (-2(ln L_{null} - ln L_{voll})) \]

Ist der p-Wert kleiner als das vorgegebene Signifikanzniveau, kann die Nullhypothese verworfen werden.

Berechnung des p-Wertes im Beispiel:


Zu den gängigen Signifikanzniveaus kann die Nullhypothese, dass das volle Modell keine Erklärungskraft besitzt, abgelehnt werden.




Komponenten und Begriffe

Die Güte des Modells

1. Gesamtzahl an Beobachtungen:

Die gesamte Anzahl an Beobachtungen im Datensatz entspricht der Anzahl an Zeilen. Diese wird häufig mit n gekennzeichnet. In diesem Datensatz gibt es insgesamt XXX Beobachtungen.

2. Gelöschte Beobachtungen:

Bei fehlenden Werten in Variablen können Beobachtungen für die Modellanalyse nicht berücksichtigt werden. Im Beispiel sind dies X Beobachtungen.

3. Zahl der Beobachtungen:

Hiermit ist die Zahl der Beobachtungen gemeint, die zur Anpassung des Modells genutzt wird. Das bedeutet, dass diese Anzahl sich aus der Differenz der Gesamtzahl an Beobachtungen und den gelöschten Beobachtungen auf Grund von fehlenden Werten in den gewünschten Variablen ergibt. In dem Modell wurden XXX Beobachtungen genutzt.

6. Pseudo R²

Das geschätzte Modell im Beispiel hat ein McFadden R² von XXX. Diese Zahl ist nicht direkt interpretierbar (siehe Faustregel oben).

8. Standardfehler des Schätzers:

Da das Logit Modell nicht analytisch lösbar ist, wird der Schätzer numerisch mittels der Maximum-Likelihood Methode ermittelt. Über diese Art von Schätzern können nur asymptotische Aussagen getroffen werden. So entspricht auch der Standardfehler asymptotisch dem Inversen der Fisher-Information.

Schätzergebnisse

9. Abhängige oder endogene Variable:

Im Beispiel ist das XXX die abhängige Variable.

10. Erklärende oder exogene Variable:

Im Beispiel ist das XXX die erklärende Variable.

11. Geschätzte Parameter:

XXX

Schätzung im Beispiel:

XXX

Interpretation der Parameter:





12. Standardabweichung der Schätzung (Standardfehler, \(\widehat{SF}_{\beta_j}\):

Da die Parameter basierend auf einer Zufallsstichprobe geschätzt werden, unterliegen diese Schätzungen einer gewissen Ungenauigkeit, die durch die Standardabweichung der Schätzung quantifiziert wird. Standardfehler werden genutzt, um statistische Signifikanz zu überprüfen und um Konfidenzintervalle zu bilden.

13. Z-Statistik (empirischer Z-Wert).

Mit Hilfe eines Wald- oder Likelihood-Ratio Tests lässt sich prüfen, ob die Nullhypothese, dass ein Koeffizient gleich 0 ist, abgelehnt werden kann. Wenn dies nicht der Fall sein sollte, ist davon auszugehen, dass die zugehörige Kovariate keinen signifikaten Einfluss auf die abhängige Variable ausübt, d.h. die erklärende Variable ist nicht sinnvoll, um die Eigenschaften der abhängigen Variablen zu erklären.

Hypothese: \(H : \beta = 0 \) gegen \(A : \beta \neq 0 \)

Teststatistik: \( T =  \frac{\hat{\beta}}{\widehat{SF}_{\beta}}\)

Verteilung unter H:

Testentscheidung (H ablehnen, wenn):

Beispiel 


14. p-Wert zur Z-Statistik:

Zusätzlich zur Z-Statisik wird meistens ein p-Wert ausgegeben. Der p-Wert gibt die Wahrscheinlichkeit an, dass die Nullhypothese XXX zutrifft.

Beispiel


15. 95%-Konfidenzintervall:

Konfidenzintervalle sind im Allgemeinen eine Möglichkeit, die Genauigkeit der Schätzung zu überprüfen. Ein 95%-Konfidenzintervall ist der Bereich, der im Durchschnitt in 95 von 100 Fällen den tatsächlichen Wert des Parameters einschließt.

Konfidenzintervall für den Steigungsparameter in der Beispielregression:  



Outputs in den verschiedenen Statistikprogrammen

Hier werden die Outputs aus den verschiedenen Statistikprogrammen vorgestellt. Die Outputs einer ordinalen Regression unterscheiden sich teils in den verschiedenen Statistikprogrammen. Sowohl sind die Werte unterschiedlich angeordet, als auch werden teils nicht die gleichen Werte ausgegeben.

Im Folgenden werden die Werte 1-15, wenn vorhanden, an den Output der verschiedenen Statistikprogramme geschrieben, damit die Werte im Output gefunden werden können.

Output in R

Output in Stata

Output in SPSS

Output in SAS



Modellannahmen und deren Überprüfung

Parallelitätstest für Linien

Die oben genannte Proportional Odds Annahme kann mit Hilfe eines Parallelitätstest für Linien überprüft werden. D.h. der Test prüft die Annahme, ob  die \(\beta\)-Koeffizienten einer erklärenden Variablen wirklich global ins Modell eingehen, also für alle Kategorien der Zielvariable gleich sind. Dafür werden für alle Kategorien der Zielvariable getrennte Regressionen durchgeführt und im Anschluss geprüft, ob alle \(\beta\)-Koeffizienten gleich sind (\(H_0\)). Dabei wird die Log-Likelihood (multipliziert mit -2) der ordinalen Regression mit der Log-Likelihood (multipliziert mit -2) verglichen, die entsteht, wenn keine globalen \(\beta\)-Koeffizienten angenommen werden. Mit Hilfe eines Likelihood-Ratio-Tests kann dann eine Testentscheidung getroffen werden.

H = Alle \(\beta\)-Koeffizienten einer erklärenden Variablen sind gleich. vs. A = Die \(\beta\)-Koeffizienten einer erklärenden Variablen sind nicht gleich.

Die Differenz der beiden Log-Likelihoods ist asymptotisch \(\chi^2\)-verteilt. Die Differenz der zu schätzenden \(\beta\)-Koeffizienten unter \(H\) und \(A\) bestimmt die Anzahl der Freiheitsgrade. Die Testentscheidung kann dann wie bekannt beim LR-Test anhand des Chi-Quadratwertes oder des p-Wertes verglichen werden.

Zusatz: partielle Residuenplots

Falls die Nullhypothese verworfen werden muss, kann es hilfreich sein, eine andere Verteilungsfunktion für den Link auszuwählen oder eine multinomiale logistische Regression durchzuführen. In einigen Fällen ist die Annahme zwar nicht für alle erklärenden Variablen erfüllt, aber für einige. Dann kann auf Partial Proportional Odds-Modelle zurückgegriffen werden, die für Einflussvariablen, die die Annahme nicht erfüllen, \(\beta\)-Koeffizienten für jeden Stufenwechsel schätzen. (Peterson B, Harrell FE Jr. Partial proportional odds model for ordinal response variables. Appl Stat. 1990;39(2):205-17. DOI: 10.2307/2347760)




Zitieren

Quellenangaben erfolgen mittels eines Superskripts. Diese werden mit Hilfeder Makros "Single Cite"und "Single Cite Short" erstellt. Siehe dazu auch die Hilfe.

 

Videos


Quellennachweis

 

Bildergalerie

 

 

  • Keine Stichwörter