Sie zeigen eine alte Version dieser Seite an. Zeigen Sie die aktuelle Version an.

Unterschiede anzeigen Seitenhistorie anzeigen

« Vorherige Version anzeigen Version 18 Nächste Version anzeigen »

Nach einer explorativen Analyse der Daten und der Wahl einer zu Messniveau und Funktionszusammenhang passenden Modellklasse, geht es darum das bestmögliche Modell zu schätzen. Daher stellt sich die Frage, was "bestmögliches" Modell bedeutet und wie ein solches bestimmt werden kann. In diesem Zusammenhang steht das berühmte Zitat:

\[\text{"All models are wrong, but some are useful"}\]

(Alle Modelle sind falsch, manche aber sind nützlich) von George Box. Der Ausspruch greift den Gedanken auf, dass mit keinem Regressionsmodell die Realität eins zu eins abgebildet werden kann. Es gibt zu viele oft auch unbeobachtbare Einflussfaktoren, die nicht in das Modell mitaufgenommen werden können. Doch selbst, da es durch heutige Rechenleistung mögllich wurde wesentlich größere und komplexere Modelle zu bauen, ist dies nicht unbedingt sinnvoll. Nimmt man zu viele erklärende Variablen auf, läuft man in die Gefahr des sogenannten "Overfitting" (Überanpassung). Ein Modell ist überangepasst, wenn es die zum Schätzen verwendeten Daten sehr gut erklären kann, aber in der Vorhersage sehr schlecht abschneidet. Dies tritt auf, da zu komplexe Modelle kleine zufällige Schwankungen (unbeobachbarer Stöhrterm) als strukturelle Beziehung zwischen erklärter und erklärender Variable auffasst. Das Thema der Modellselektion ist also ein allgegenwärtiges in der Statistik/ Regressionsanalyse. Dennoch gibt es keine absoluten, objektiven Kriterien an denen entschieden werden kann, ob das eine oder das andere Modell gewählt werden sollte. Vielmehr existieren viele verschiedene Verfahren, die versuchen zwischen möglichst viel Erklärungsgehalt des Modells und möglichst wenig Komplexität (siehe dazu Ockhams Rasiermesser) abzuwägen.

AIC (Akaike-Information-Citerion)

Das AIC soll dazu dienen die Modellkandidaten \(m\in{M}\) zu vergleichen. Dies geschieht anhand der log-Likelihood, die unter den gegebenen Parametern maximiert wird. Um nicht komplexere Modelle als durchweg besser einzustufen wird neben der log-Likelihood noch die Anzahl der geschätzten Parameter als Strafterm mitaufgenommen.

\[AIC(m)=-2\hat{l}_m+2|m|\]

klassisches Regressionsmodell

\[AIC(m)=n\ln(\hat{\sigma }_{Z}^{2})+2|m|\]

BIC (Bayesian-Information-Criterion)

Das BIC (auch SIC Schwarz Information Criterion genannt) ist dem AIC sehr ähnlich. Der Wert der log-Likelihood maximiert mit bestimmten erklärenden Variablen wird zur Bewertung der Modellgüte herangezogen. Davon wird als Strafterm, die Anzahl der geschätzten Parameter multipliziert mit dem natürlichen Logarithmus der Anzahl der Beobachtungen, abgezogen. Im Gegensatz zum Akaike Kriteriuim passt sich der Strafterm an die Größe des Modells an. Schon ab acht Beobachtungen \(ln(8)=2,07944>2\) bestraft das BIC komplexere Modelle stärker als das AIC.

\[BIC(m)=-2\hat{l}_m+|m|ln(n)\]

klassisches Regressionsmodell

\[BIC(m)=n\ln(\hat{\sigma }_{Z}^{2})+|m|ln(n)\]

Mallows \(C_p\)

 

McFaddens Pseudo \(R^2\)

 

upward selection

 

downward selection

 

  • Keine Stichwörter