Sie zeigen eine alte Version dieser Seite an. Zeigen Sie die aktuelle Version an.

Unterschiede anzeigen Seitenhistorie anzeigen

« Vorherige Version anzeigen Version 50 Nächste Version anzeigen »

Nach einer explorativen Analyse der Daten und der Wahl einer zu Messniveau und Funktionszusammenhang passenden Modellklasse, geht es darum das bestmögliche Modell zu den vorliegenden Daten zu finden. Daher stellt sich die Frage, was "bestmögliches" Modell bedeutet und wie ein solches bestimmt werden kann. In diesem Zusammenhang wird der Gedanke aufgegriffen, dass mit keinem Regressionsmodell die Realität eins zu eins abgebildet werden kann. Es gibt zu viele oft auch unbeobachtbare Einflussfaktoren, die nicht in das Modell mitaufgenommen werden können. Doch selbst, da es durch heutige Rechenleistung mögllich ist wesentlich größere und komplexere Modelle schnell zu berechnen, ist dies nicht unbedingt sinnvoll. Nimmt man zu viele erklärende Variablen auf, läuft man in Gefahr das Modell zu "overfitten" (überanpassen). Ein Modell ist überangepasst, wenn es die zum Schätzen verwendeten Daten sehr gut erklären kann, aber in der Vorhersage sehr schlecht abschneidet. Dies tritt auf, da zu komplexe Modelle kleine zufällige Schwankungen (unbeobachbarer Störterm) als strukturelle Beziehung zwischen erklärter und erklärender Variable auffassen.

Das Thema der Modellselektion ist also ein allgegenwärtiges in der Statistik/ Regressionsanalyse. Dennoch gibt es keine absoluten, objektiven Kriterien an denen entschieden werden kann, ob das eine oder das andere Modell gewählt werden sollte. Vielmehr existieren viele verschiedene Verfahren, die versuchen zwischen möglichst viel Erklärungsgehalt des Modells und möglichst wenig Komplexität (siehe dazu Ockhams Rasiermesser) abzuwägen.

AIC (Akaike-Information-Citerion)

Das AIC soll dazu dienen die Modellkandidaten \(m\in{M}\) zu vergleichen. Dies geschieht anhand der log-Likelihood, die unter den gegebenen Parametern maximiert wird. Um nicht komplexere Modelle als durchweg besser einzustufen wird neben der log-Likelihood noch die Anzahl der geschätzten Parameter als Strafterm mitaufgenommen. Das AIC darf nicht als absolutes Maß verstanden werden, das heißt es ist kein Test mit einer Nullhypothese, die verworfen werden könnte. Auch das Modell, welches vom Akaike Kriterium als bestes ausgewiesen wird, kann eine sehr schlechte Anpassung an die Daten aufweisen. Die Anpassung ist lediglich besser als in den Alternativmodellen.

\[AIC(m)=-2\hat{l}_m+2|m|\]

In der Formel steht m für die Anzahl, der im Modell enthaltenen Parameter und \(\hat{l}\) für die log-Likelihoodfunktion ausgewertet an der Stelle der berechneten \(\beta\) Schätzer. Der beste Wert des AIC ist der im Vergleich kleinste, da die negative log-Likelihood einen verzerrten Schätzer der Kullback-Leibler-Divergenz darstellt.

Im klassisches Regressionsmodell unter Normalverteilungsannahme der Störterme kann das AIC auch folgendermaßen dargestellt werden:

\[AIC(m)=n\ln(\hat{\sigma }^{2})+2|m|\]

\(\hat{\sigma }^{2}\) steht für die geschätzte Varianz der Fehler \(\epsilon_i\) des Modells. Mithilfe des Akaike Informationskriteriums können anders als beispielsweise mit dem Likelihood-Quotiententest nicht nur geschachtelte, sondern auch nicht geschachtelte Modelle verglichen werden. Berechnet man das AIC von Modellen mit gleicher Parameterzahl, so entspricht die Auswahl nach dem kleinsten AIC, der Auswahl nach der kleinsten Residuenquadratsumme.

BIC (Bayesian-Information-Criterion)

Das BIC (auch SIC Schwarz Information Criterion genannt) ist dem AIC sehr ähnlich. Zur Bewertung der Modellgüte wird der Wert der maximierten log-Likelihood (jeweils in verschiedenen Modellen) herangezogen. Davon wird als Strafterm, die Anzahl der geschätzten Parameter multipliziert mit dem natürlichen Logarithmus der Anzahl der Beobachtungen, abgezogen. Im Gegensatz zum Akaike Kriteriuim passt sich der Strafterm an die Größe des Modells an. Schon ab einer Stichprobengröße von acht \((ln(8)=2,07944>2)\) bestraft das BIC komplexere Modelle stärker als das AIC.

\[BIC(m)=-2\hat{l}_m+|m|ln(n)\]

In der Formel steht m für die Anzahl, der im Modell enthaltenen Parameter und \(\hat{l}\) für die log-Likelihoodfunktion maximiert an der Stelle der berechneten \(\beta\) Schätzer. Der beste Wert des BIC ist der im Vergleich kleinste, da die negative log-Likelihood einen verzerrten Schätzer der Kullback-Leibler-Divergenz darstellt.

Im klassisches Regressionsmodell unter Normalverteilungsannahme der Störterme kann das BIC auch folgendermaßen dargestellt werden:

\[BIC(m)=n\ln(\hat{\sigma }^{2})+|m|ln(n)\]

\(\hat{\sigma }^{2}\) steht für die geschätzte Varianz der Fehler \(\epsilon_i\) des jeweiligen Modells. Mithilfe des Bayesianischen Informationskriteriums können anders als beispielsweise mit dem Likelihood-Quotiententest oder F-Test nicht nur geschachtelte, sondern auch nicht geschachtelte Modelle verglichen werden. Berechnet man das BIC von Modellen mit gleicher Parameterzahl, so entspricht die Auswahl nach dem kleinsten BIC, der Auswahl nach der kleinsten Residuenquadratsumme.

McFaddens Pseudo \(R^2\)

Im Fall einer metrischen abhängigen Variable in einem linearen Regressionsmodell werden zur Bewertung der Modellgüte oft die Bestimmtheitsmaße \(R^2\) und adjustiertes \(\bar{R}^2\) herangezogen. Bei Modellen mit nominalen oder ordinalen erklärten Variablen gibt es keine direkte Entsprechung, da die Varianz und somit das \(R^2\) nicht berechnet werden könnnen. Aus diesem Grund gibt es verschiedene Pseudo-Bestimmtheitsmaße (allgemein Pseudo-\(R^2\)) mit unterschiedlilchen Ansätzen. Sie sind so konstruiert, dass sie dem üblichen Bestimmtheitsmaß in Interpretation und Anwendung gleichen. Allgemein gilt eine Beschränkung auf 0,1, wobei ein Wert nahe bei 1, auf eine bessere Modellanpassung hinweißt, als ein Wert nahe bei 0.

Hier wird das auf der log-Likelihood basierende McFaddens Pseudo \(R^2\) vorgestellt, da es in der Praxis oft Anwendung findet:

\[R_{\text{McFadden}}^2=1-\frac{lnL_1}{lnL_0}\]

McFaddens korriegiertes Pseudo \(R^2\)

\[\bar{R}_{\text{McFadden}}^2=1-\frac{lnL_1-m}{lnL_0}\]

Vorwärts- und Rückwärtsselektion

Ein Problem, das das Ergebnis von Vorwärts- und Rückwärtsselektion stark beeinflussen kann ist das Vorliegen von Kollinearität. Sind Kovariate zu stark korreliert, kann das dazu führen, dass ihr Einfluss auf die erklärte Variable durch das verwendete Modellwahlkriterium nicht erkannt wird. Sie würden dem zufolge möglicherweise nicht in das Modell aufgenommen bzw. daraus entfernt werden. Daher ist es wichtig Daten auf Kollinearität zu prüfen, bevor ein Verfahren zur Variablenselektion  eingesetzt wird.

Vorwärtsselektion

  1.  Als Grundmodell wird das "kleinstmögliche" Modell, bestehend nur aus einer Konstanten verwendet.
  2. Anschließend wird die Variable in das Modell übernommen, welche die größte Verbesserung bringt. Die Verbesserung wird anhand eines vorher festgelegten Modellwahlkriteriums gemessen. Üblicherweise werden dazu AIC, BIC oder sogar beide Kriterien verwendet.
  3. In den Folgeschritten wird jeweils eine erklärende Variable zusätzlich aufgenommen und das Modell somit schrittweise komplexer. Dabei folgt man immer dem, in Schritt 2 festgelegten Verfahren und wählt die Einflussgröße, mit der AIC oder BIC minimal werden.
  4. Stoppregel: Das Vorgehen wird dann beendet, wenn durch die Aufnahme weiterer Kovariaten keine Verbesserung des Modellwahlkriteriums mehr erreicht werden kann.
  5. Das resultierende Modell kann dann zur weiteren Analyse verwendet werden. 

Rückwärtsselektion

  1. Als Ausgangsmodell wird bei der Rückwärtsselektion das volle Modell gewählt, d.h. es werden alle zur Verfügung stehenden erklärenden Variablen aufgenommen
  2. In den folgenden Schritten wird jeweils die Kovariate entfernt, die den schlechtesten Wert des Modellwahlkriteriums (z.B. höchstes AIC, BIC) liefert.
  3. Stoppregel: Das Vorgehen wird dann beendet, wenn durch Herausnahme einer weiteren Einflussgröße keine Verbesserung im Wert des Auswahlkriteriums mehr erzielt werden kann.
  4. Das ermittelte Modell ist das beste im Sinne des jeweils verwendeten Kriteriums und kann anschließend zu Schätzung/ Prognose verwendet werden.

 

Die beiden Methoden der Vorwärts- und Rückwärtsselektion können auch kombiniert durchgeführt werden. Hierbei wird bei jedem Schritt des Verfahrens sowohl auf das Hinzufügen, als auch auf das Entfernen von Variablen aus dem Modell getestet. Häufig kann es dazu kommen, dass die Methoden unterschiedliche Ergebnisse liefern. Diese können wieder mit Auswahlkriterien verglichen werden.

Oft wird bei den vorgestellten Methoden gleichzeitig mit dem Akaike und dem Bayesianischen Informationskriterium gearbeitet. Sie unterscheiden sich durch den Strafterm für Modellkomplexität und können somit zu unterschiedlichen Ergebnissen kommen. Deshalb muss im Einzelfall entschieden werden, welches Kriterium sinnvoller ist. Die verschiedenen Vorgehensweisen der Variablenselektion sind in modernen Statistikprogrammen im Standardpaket enthalten und müssen also nicht von Hand durchgeführt werden.

Betrachtung aller möglichen Modelle

Mit den Verfahren der Vorwärts- und Rückwärtsselektion werden maximal \(k(k-1)/2\) Modelle (bei k vorliegenden möglichen Prädiktoren) verglichen. Es gibt also keine Garantie, das beste Modell zu finden. Als Alternative zum schrittweisen Vorgehen bietet sich die Methode an, alle \(2^k\) möglichen Modelle zu vergleichen. Es wird das Modell identifiziert, welches das gewählte Anpassungsmaß maximiert oder das Informationskriterium minimiert.

 


 

 

  • Keine Stichwörter