Sie zeigen eine alte Version dieser Seite an. Zeigen Sie die aktuelle Version an.

Unterschiede anzeigen Seitenhistorie anzeigen

« Vorherige Version anzeigen Version 12 Nächste Version anzeigen »

Jede Doktorarbeit wird mehrere statistische Modelle prüfen. Daher wird man von einfachen Standardmodellen zu immer komplexeren Modellen wechseln. Doch wo hört man auf? Welches Modell passt noch zu meinen Daten? Die Beantwortung dieser Frage ist oft entscheidend für den Ausgang der Doktorarbeit, und der Kandidat sollte in der Lage sein, hierauf eine eigene Antwort zu finden. Die Bestimmung eines geeigneten Modells ist keine leichte Aufgabe. Sie steht unter dem Verdikt: ''All models are wrong! But some are more useful than others.''

Inhaltsverzeichnis

 

 

 die unabhängigen Variablen (erklärende Variablen) erklärt werden kann.

 Abb.4 Abweichung

Die schwarzen Punkte stellen die gemessene Größe yi dar, die horizontale Linie kennzeichnet den Mittelwert von y der abhängigen Variablen und die geneigte Linie veranschaulicht die durch das Modell bzw. die unabhängige Variable vorhergesagten Werte Prognosewert von y.

  • Die vertikale orangene Linie gibt die Gesamtabweichung einer beispielhaft ausgewählten Beobachtung yi zum Mittelwert von y an – diesen Fehler würden wir machen, wenn wir mit dem Mittelwert von y die entsprechende Beobachtung yi vorhersagen würden.
  • Erklärte Abweichung: Die vertikale blaue Linie kennzeichnet die Abweichung der Regressionsgeraden zum Mittelwert – diesen Fehler können wir durch Hinzunahme der unabhängigen Variablen x vermeiden.
  • Unerklärte Abweichung/Residuum: Die vertikale rote Linie gibt die Abweichung der speziellen Beobachtung yi zur Regressionsgeraden an (Residuum ei) – diesen Teil der Abweichung können wir auch durch Hinzunahme der unabhängigen Variablen x nicht vermeiden. Dabei ist zu beachten, dass die Residuen zufällig um die Regressionsgerade streuen sollten. Tun sie das nicht, ist von einer Fehlspezifikation des Modells auszugehen.

Das Prinzip der Varianzzerlegung spiegelt sich auch in der Formel zur Berechnung des R2 wider:

$$R^2 = \frac{\sum_{i=1}^{n}{(\hat{y_i}-\bar{y})^2}}{\sum_{i=1}^{n}{(y_i-\bar{y})^2}} = \frac{\text{erklärte Variation}}{\text{Gesamtvariation}}$$

oder

$$R^2 = 1 - \frac{\sum_{i=1}^{n}{e_i^2}}{\sum_{i=1}^{n}{(y_i-\bar{y})^2}} = 1 - \frac{\text{unerklärte Variation}}{\text{Gesamtvariation}}$$

wobei n die Anzahl der Beobachtungen ist.

Fazit

Die naivste Vorhersage eines Merkmals von einer bestimmten unbekannten Beobachtung ist der Mittelwert über das Merkmal aller vorhandenen Beobachtungen. Die Nutzung der Information aus zusätzlichen (unabhängigen) Variablen im Rahmen eines Regressionsmodells kann helfen, diese Schätzung zu verfeinern und somit genauere Vorhersagen (Prognosen) zu treffen. Diese Verbesserung des Modells lässt sich am Bestimmtheitsmaß R2 festmachen. Allerdings stimmen vorhergesagter Wert und beobachteter Wert in den seltensten Fällen exakt überein. In der Praxis bleibt immer eine Restabweichung des Punktes von der Regressionsgeraden – das Residuum. Bei einer korrekten Spezifikation des Modells sollten die Residuen zufällig um die Regressionsgerade streuen. Das R2 nutzt das Konzept der Varianzzerlegung. Es besagt, dass sich die Varianz der abhängigen Variablen in erklärte Varianz und nicht erklärte Varianz (Residualvarianz) zerlegen lässt.

Bemerkung 1

Gibt es hier Informationen, die gegeben werden sollen?

 

 

 

Das korrigierte R2

Trotz des eingängigen Prinzips des R2s, existieren einige Kritikpunkte daran. Einer davon betrifft die Ignoranz des R2 gegenüber der Anzahl an aufgenommenen unabhängigen Variablen. Es besteht nämlich die Möglichkeit durch Aufnahme zahlreicher (auch unsinniger) Variablen in die Regression das R2 in die Höhe zu treiben (engl. kitchen sink regression). Das Modell wird dadurch immer unübersichtlicher, instabiler und komplexer, während sich die Prognosegüte häufig sogar verschlechtert. Neben der Anforderung an ein Modell so viel Varianz der abhängigen Variablen wie möglich zu erklären, sollte es auch so "schlank" wie möglich sein. Das bedeutet, im Vergleich zweier Modelle, die das gleiche R2 jedoch unterschiedliche Anzahlen an unabhängigen Variablen besitzen, ist nach dem Sparsamkeitsprinzip (engl. "Occam’s Razor") dasjenige zu bevorzugen, welches weniger unabhängige Variablen besitzt.

Ein Gütemaß, welches beides, Modellanpassung und Sparsamkeit berücksichtigt, ist das sogenannte korrigierte R2 (auch: adjustiertes, bereinigtes oder angepasstes R2). Es besteht aus dem Wert des einfachen R2 welcher mit einem "Strafterm" belegt wird. Daher nimmt das korrigierte R2 in der Regel einen geringeren Wert als das einfache R2 an und kann in manchen Fällen sogar negativ werden. Die "Strafe" steigt mit der Anzahl der unabhängigen Variablen. Durch Hinzunahme einer neuen Variablen kann das Modell im Sinne des korrigierten R2 nur dann verbessert werden, wenn der zusätzliche Erklärungsgehalt den Strafterm mehr als ausgleicht.

Formel des korrigierten R2: $$R^2_{korr} = 1 - ( 1-R^2)*\frac{n-1}{n-p-1}$$, wobei n die Anzahl der Beobachtungen ist und p die Anzahl der unabhängigen Variablen. Die "Strafe" für zusätzliche Variablen fällt insbesondere bei geringem Stichprobenumfang (n) hoch aus.

In der folgenden Tabelle ist zu sehen wie sich das normale R2 mit jeder hinzugenommenen Variablen erhöht. Das korrigierte R2 hingegen steigt zunächst an und fällt dann ab einer Variablenanzahl von drei wieder ab. Sein Wert liegt im Beispiel immer unter dem des normalen R2.

Anzahl Variablen im ModellR2korrigiertes R2
10,6810,670
20,7080,686
30,7260,694
40,7290,686
50,7320,676
60,7330,663

Neben dem oben vorgestellten einfachen und korrigierten R2 existieren weitere Gütemaße. Dazu zählen das Pseudo-R2, welches hauptsächlich für komplexere Modelle genutzt wird (hierarchische Modelle, generalisierte lineare Modelle,…), oder Informationkriterien basierend auf log Likelihood-Schätzungen (AIC, BIC, …). Letztere dienen vornehmlich dem Vergleich von Modellen und werden u.a. bei der Variablenselektion verwendet.

Fazit

Zur Beurteilung der Güte von linearen Regressionsmodellen bietet es sich an, das korrigierte R2 zu betrachten. Es ist zwar nicht direkt wie das normale R2 als Prozentsatz an erklärter Varianz der abhängigen Variablen zu interpretieren, berücksichtigt und bestraft aber die Anzahl an unabhängigen Variablen im Modell. Prinzipiell gilt: je höher das korrigierte R2, desto besser passt das Modell auf die Daten.

 

Wie hoch muss mein R2 sein?

Eine typische Frage in der statistischen Beratung ist die folgende: "Wie hoch muss mein R2 sein?" "Das kommt darauf an…!" ist die Antwort. So unbefriedigend diese Antwort auch ist, gerade in Bezug auf das R2 könnte sie wahrer nicht sein.

Je nach Disziplin sind unterschiedliche Größen des R2 üblich. In Bereichen wie dem klassischen Marketing, in denen es hauptsächlich darum geht, menschliches Verhalten zu erklären bzw. vorherzusagen, sind meist geringe R2 (deutlich kleiner 50%) zu erwarten. In anderen Bereichen wie bspw. der Physik, sind weit höhere R2 die Regel. Dies ist wenig überraschend, da auf das menschliche Verhalten zahlreiche und häufig nicht direkt messbare Einflüsse wirken. In der Physik hingegen werden oft Zusammenhänge zwischen wenigen exakt messbaren Größen untersucht. Dies geschieht zusätzlich meist unter experimentellen Bedingungen, unter denen sich Störeinflüsse minimieren lassen.

Ähnliches lässt sich über die Auswirkung der Analyseebene auf das R2 sagen: Vorhersagen auf der Mikroebene sind schwieriger, da sie sich auf das Verhalten einzelner Personen/Untersuchungseinheiten beziehen. Findet allerdings eine Modellanpassung auf Makroebene statt, so fällt diese oft besser aus. Der dahinterliegende Mechanismus lässt sich grob wie folgt beschreiben: Vorhersagefehler, die z.B. aufgrund der Komplexität des menschlichen Verhaltens auf der Mikroebene existieren, kommen im Idealfall nicht systematisch zustande. D.h. es handelt sich sowohl um positive als auch negative Abweichungen von der Regressionsgeraden. Die Varianzaufklärung hingegen ist systematisch. Werden Vorhersagen, die auf Individualebene getroffen wurden aggregiert, so kompensieren sich zunehmend die unsystematischen Fehler zwischen den Individuen und die systematische Tendenz in die „richtige Richtung“ tritt im Aggregat immer deutlicher hervor.

Der Effekt der Aggregation beim Übergang von der Mikro- auf die Makro-Ebene soll an einem Beispiel illustriert werden: Die Daten zeigen das R2 eines Modells, welches die Anzahl der Kundenkontakte in einem Support-Center prognostizieren soll. Ziel ist eine bedarfsgerechte Personalplanung, die gewährleistet, dass Kundenanfragen kurzfristig bearbeitet werden können. Während Unterbesetzung zu Wartezeiten für die Kunden führt, sind zu hohe Kosten - und somit Unwirtschaftlichkeit - die Konsequenz einer Überbesetzung. Die x-Achse zeigt die Aggregation. Im linken Teil wird für jeden einzelnen Kunden prognostiziert, ob und ggf. wie oft er den Kontakt sucht. Das R2 ist in diesem Fall mit ca. 10\% nach gängigen Erwartungen eher gering. Für die Personalplanung spielt es jedoch im Idealfall keine Rolle, welcher Kunde eine Anfrage stellt. Wichtig ist - solange jeder Mitarbeiter die Anfragen aller Kunden bearbeiten kann - nur die Gesamtzahl der Anfragen. Wird auf der selben Datenbasis eine Prognose für die Anzahl der von allen (in diesem Beispiel sind es 500) Kunden generierten Supportanfragen geschätzt, so erreicht dieses ein R2 von über 95% (rechter Teil der Grafik). Die Fälle zwischen Mikro- (links) und Makro-Ebene (rechts) stellen Mischszenarien dar: Sind die Supportmitarbeiter in Teams eingeteilt, die jeweils so weit spezialisiert sind, dass sie nur die Anfragen bestimmter Kunden beantworten können, müssen separate Modelle für die einzelnen Kundengruppen bzw. Teams geschätzt werden. Der mittlere Teil der Grafik zeigt, wie sich das R2 in diesem Fall in Abhängigkeit von der Zahl der zusammengafassten Kunden entwickelt.

Abb.5 Veränderung des R2

Während auf der Mikro-Ebene - je nach Datenlage - in vielen Fällen bereits ein R2 von 10% als gut gelten kann, erwarten viele bei stärker aggregierten Daten ein R2 von 40%-80% oder sogar mehr. Es bleibt zu erwähnen, dass ein Modell mit geringem R2 - selbst bei stärker aggregierten Daten - nicht nutzlos sein muss, da die Alternative dazu oft gar kein Modell darstellt, was einem R2 von 0 entspricht. Im übertragenen Sinne bedeutet das, dass eine systematische Prognose auf Basis eines Modells mit beschränktem R2 oft schon besser ist als eine unsystematische Planung, die ausschließlich auf Bauchgefühl setzt.

Fazit

Die übliche Größenordnung des R2 variiert je nach dem um welches Anwendungsgebiet es sich handelt. Ebenso sind für Modelle auf Mikro- und Makroebene unterschiedliche R2 zu erwarten. Generell ist die Aussagekraft von Modellen mit geringem R2 nicht zwangsläufig schlecht.

 

Bildergalerie

 

  • Keine Stichwörter