Sie zeigen eine alte Version dieser Seite an. Zeigen Sie die aktuelle Version an.

Unterschiede anzeigen Seitenhistorie anzeigen

« Vorherige Version anzeigen Version 36 Nächste Version anzeigen »

Nach einer explorativen Analyse der Daten und der Wahl einer zu Messniveau und Funktionszusammenhang passenden Modellklasse, geht es darum das bestmögliche Modell zu schätzen. Daher stellt sich die Frage, was "bestmögliches" Modell bedeutet und wie ein solches bestimmt werden kann. In diesem Zusammenhang steht das berühmte Zitat:

\[\text{"All models are wrong, but some are useful"}\]

(Alle Modelle sind falsch, manche aber sind nützlich) von George Box. Der Ausspruch greift den Gedanken auf, dass mit keinem Regressionsmodell die Realität eins zu eins abgebildet werden kann. Es gibt zu viele oft auch unbeobachtbare Einflussfaktoren, die nicht in das Modell mitaufgenommen werden können. Doch selbst, da es durch heutige Rechenleistung mögllich wurde wesentlich größere und komplexere Modelle zu bauen, ist dies nicht unbedingt sinnvoll. Nimmt man zu viele erklärende Variablen auf, läuft man in die Gefahr des sogenannten "Overfitting" (Überanpassung). Ein Modell ist überangepasst, wenn es die zum Schätzen verwendeten Daten sehr gut erklären kann, aber in der Vorhersage sehr schlecht abschneidet. Dies tritt auf, da zu komplexe Modelle kleine zufällige Schwankungen (unbeobachbarer Stöhrterm) als strukturelle Beziehung zwischen erklärter und erklärender Variable auffasst. Das Thema der Modellselektion ist also ein allgegenwärtiges in der Statistik/ Regressionsanalyse. Dennoch gibt es keine absoluten, objektiven Kriterien an denen entschieden werden kann, ob das eine oder das andere Modell gewählt werden sollte. Vielmehr existieren viele verschiedene Verfahren, die versuchen zwischen möglichst viel Erklärungsgehalt des Modells und möglichst wenig Komplexität (siehe dazu Ockhams Rasiermesser) abzuwägen.

AIC (Akaike-Information-Citerion)

Das AIC soll dazu dienen die Modellkandidaten \(m\in{M}\) zu vergleichen. Dies geschieht anhand der log-Likelihood, die unter den gegebenen Parametern maximiert wird. Um nicht komplexere Modelle als durchweg besser einzustufen wird neben der log-Likelihood noch die Anzahl der geschätzten Parameter als Strafterm mitaufgenommen. Das AIC darf nicht als absolutes Maß verstanden werden, das heißt es ist kein Test mit einer Nullhypothese, die verworfen werden könnte. Auch das Modell, welches vom Akaike Kriterium als bestes ausgewiesen wird, kann eine sehr schlechte Anpassung an die Daten aufweisen. Die Anpassung ist lediglich besser als in den Alternativmodellen.

\[AIC(m)=-2\hat{l}_m+2|m|\]

In der Formel steht m für die Anzahl, der im Modell enthaltenen Parameter und \(\hat{l}\) für die log-Likelihoodfunktion ausgewertet an der Stelle der berechneten \(\beta\) Schätzer. Der beste Wert des AIC ist der im Vergleich kleinste, da die negative log-Likelihood einen verzerrten Schätzer der Kullback-Leibler-Divergenz darstellt.

Im klassisches Regressionsmodell unter Normalverteilungsannahme der Störterme kann das AIC auch folgendermaßen dargestellt werden:

\[AIC(m)=n\ln(\hat{\sigma })+2|m|\]

\(\hat{\sigma }^{2}\) steht für die geschätzte Varianz (Residuenquadratsumme/n) der Fehler \(\epsilon_i\) des Modells. Mithilfe des Akaike Informationskriteriums können anders als beispielsweise mit dem Likelihood-Quotiententest nicht nur geschachtelte, sondern auch nicht geschachtelte Modelle verglichen werden. Berechnet man das AIC von Modellen mit gleicher Parameterzahl, so entspricht die Auswahl nach dem kleinsten AIC, der Auswahl nach der kleinsten Residuenquadratsumme.

BIC (Bayesian-Information-Criterion)

Das BIC (auch SIC Schwarz Information Criterion genannt) ist dem AIC sehr ähnlich. Der Wert der log-Likelihood maximiert mit bestimmten erklärenden Variablen wird zur Bewertung der Modellgüte herangezogen. Davon wird als Strafterm, die Anzahl der geschätzten Parameter multipliziert mit dem natürlichen Logarithmus der Anzahl der Beobachtungen, abgezogen. Im Gegensatz zum Akaike Kriteriuim passt sich der Strafterm an die Größe des Modells an. Schon ab einer Stichprobengröße von acht \((ln(8)=2,07944>2)\) bestraft das BIC komplexere Modelle stärker als das AIC.

\[BIC(m)=-2\hat{l}_m+|m|ln(n)\]

In der Formel steht m für die Anzahl, der im Modell enthaltenen Parameter und \(\hat{l}\) für die log-Likelihoodfunktion maximiert an der Stelle der berechneten \(\beta\) Schätzer. Der beste Wert des BIC ist der im Vergleich kleinste, da die negative log-Likelihood einen verzerrten Schätzer der Kullback-Leibler-Divergenz darstellt.

Im klassisches Regressionsmodell unter Normalverteilungsannahme der Störterme kann das BIC auch folgendermaßen dargestellt werden:

\[BIC(m)=n\ln(\hat{\sigma }^{2})+|m|ln(n)\]

\(\hat{\sigma }^{2}\) steht für die geschätzte Varianz (Residuenquadratsumme/n) der Fehler \(\epsilon_i\) des jeweiligen Modells. Mithilfe des Bayesianischen Informationskriteriums können anders als beispielsweise mit dem Likelihood-Quotiententest oder F-Test nicht nur geschachtelte, sondern auch nicht geschachtelte Modelle verglichen werden. Berechnet man das BIC von Modellen mit gleicher Parameterzahl, so entspricht die Auswahl nach dem kleinsten BIC, der Auswahl nach der kleinsten Residuenquadratsumme.

Mallows \(C_p\)

 

McFaddens Pseudo \(R^2\)

Im Fall einer metrischen abhängigen Variable in einem linearen Regressionsmodell werden zur Bewertung der Modellgüte oft die Bestimmtheitsmaße \(R^2\) adjustiertes \(\bar{R}^2\) herangezogen. Bei Modellen mit nominalen oder ordinalen erklärten Variablen gibt es keine direkte Entsprechung, da die Varianz und somit das \(R^2\) nicht berechnet werden könnnen. Aus diesem Grund gibt es verschiedene Pseudo-Bestimmtheitsmaße (allgemein Pseudo-\(R^2\)) mit unterschiedlilchen Ansätzen. Sie sind so konstruiert, dass sie dem üblichen Bestimmtheitsmaß in Interpretation und Anwendung gleichen. Allgemein gilt eine Beschränkung auf 0,1, wobei ein hoher Wert nahe bei 1, als besser einzuschätzen ist als ein Wert nahe bei 0.

Hier wird das auf der log-Likelihood basierende McFaddens Pseudo \(R^2\) vorgestellt, da es in der Praxis oft Anwendung findet:

\[R_{\text{McFadden}}^2=1-\frac{lnL_1}{lnL_0}\]

McFaddens korriegiertes Pseudo \(R^2\)

\[\bar{R}_{\text{McFadden}}^2=1-\frac{lnL_1-m}{lnL_0}\]

 

upward selection

 

downward selection

 

  • Keine Stichwörter