Sie zeigen eine alte Version dieser Seite an. Zeigen Sie die aktuelle Version an.

Unterschiede anzeigen Seitenhistorie anzeigen

« Vorherige Version anzeigen Version 9 Nächste Version anzeigen »

Es wird ein knapper Überblick  über Basiskonzepte der Stichprobentheorie im Stile eines Crash-Kurses gegeben.

Ein einführendes Lehrbuch ist: Lohr (2010) Sampling: Design and Analysis (2. ed. Boston : Brooks/Cole).

Inhaltsverzeichnis

Der Design-basierte Ansatz

Der Design-basierte Ansatz behandelt die Ziehung einer Stichprobe aus einer endlichen Grundgesamtheit. Hierbei sind die Merkmale der Elemente der Grundgesamtheit feste Grössen. Zufällig ist allein die Auswahl der Einheiten für die Stichprobe. Das Wahrscheinlichkeitsgesetz, nach dem eine Stichprobe gezogen wird, bezeichnet man als Stichproben-Design.

Das Stichproben-Design ist bekannt. Es muss nicht geschätzt werden. Geschätzt werden sollen fixe Grössen der Grundgesamtheit, z.B. die Gesamtanzahl von Personen mit einem bestimmten Merkmal in der Grundgesamtheit. Beispielsweise die Gesamtanzahl der Personen in Deutschland, die zu einem bestimmten Zeitpunkt studieren. Diese Zahl soll auf Basis der zufälligen Stichprobe geschätzt werden. Damit ist die Schätzung des Populationswerts auf Basis der Stichprobe eine zufällige Grösse. Als Zufall fungiert hier die zufällige Stichprobe.

Alle Aussagen über die Varianz der Schätzer basieren auf der Zufälligkeit der Stichprobe. Die Stichprobentheorie präsentiert verschiedene Designs (Stichprobenverfahren), die diese Varianz unter bestimmten Umständen klein werden lassen.

Aufgaben der Stichprobentheorie:

  • Angabe von Schätzern für Populationswerte.
  • Schätzung der Genauigkeit (=Varianz) dieser Schätzer.
  • Bestimmung eines Varianz-optimalen Stichprobenverfahrens (=Designs)
  • Optimale Allokation des Stichprobenumfangs (Kostenoptimalität)

Weitere Felder sind: Die Behandlung von Nonresponse und die Behandlung von Zusatzinformationen aus anderen Quellen über Kalibration.

Inklusionswahrscheinlichkeiten

Eine zufällige Stichprobe \(S \subset U \) werde gemäß einer  \textbf{bekannten Wahrscheinlichkeitsverteilung}  \(p\) gezogen. Für die realisierte Stichprobe \(s\) gilt damit :

$$P(S=s)=p(s)$$

Über das Design \(p\) sind dann auch die Inklusionswahrscheinlichkeiten für jede Einkeit \(k \in U\) bestimmt. Es sei  \(I_k=1\), falls Einheit \(k\) mit der Stichprobe gezogen wird. Ist \(k\) nicht in der Stichprobe, so wird dies durch  \(I_k=0\) angezeigt.

$$P( k \in S )&=& \sum\limits_{s \ni k} p(s) \\

    &=& P(I_k=1) \\

    &=& \pi_k$$

Hierbei bezeichnet der erste Term auf der rechten Seite die Summe über alle möglichen Stichproben, die die Einheit \(k\) enthalten.

Analog definiert man die Wahrscheinlichkeit \(\pi_{k,l}\) über  das Ereignis, dass die Einheiten \(k\) und \(l\) ausgewählt werden. Man erhält:

$$P( k,l \in S )&=& \sum\limits_{s \ni k,l} p(s) \\

    &=& P(I_k=1, I_l=1) \\

    &=& \pi_{k,l}$$

 

Interessierende Populationsparameter

Von Interesse sind meist einfach zu interpretierende Grössen der Grundgesamtheit wie das Gesamtaufkommen (Total), Mittelwerte oder Verhältnisse (Ratios):

$$t_y=\sum_{k\in U}y_k  \quad \quad \mbox{(Totals)} $$

$$\overline{y}_U=\frac{1}{N} \sum_{k\in U}y_k  \quad \quad \mbox{(Mittelwerte)} $$

$$\frac{t_y}{t_x}=\frac{\overline{y}_U}{\overline{x}_U}  \quad \quad \mbox{(Ratios)}$$

 Zur Schätzung dieser Populationswerte braucht man eine Schätzfunktion auf Basis der Stichprobe \(s\).

 

Der \(\pi\)-Schätzer und seine Eigenschaften

Die Schätzung über den Kehrwert der Auswahlwahrscheinlichkeit (kurz: der \(\pi\)-Schätzer) schätzt das Gesamtaufkommen \(t_y\) durch:

$$\nonumber \hat{t}_y &=& \sum_{k \in  U}\frac{I_k}{\pi_k}y_k \\

  &=& \sum_{k \in s}\frac{y_k}{\pi_k} \label{app_2}$$

Im deutschsprachigen Bereich wird dieser Schätzer auch als ''Freie Hochrechnung'' bezeichnet.

Der Schätzer besitzt eine sehr einfache Interpretation: Jede Person \(k\) in der Stichprobe zählt wie \(1< 1/\pi_k\) Personen in der Grundgesamtkeit. Im Mikrozensus gilt beispielsweise \(1/\pi_k = 100\). Der Faktor \(w_k=1/\pi_k\) wird auch als Designgewicht bezeichnet.

Der \(\pi\)-Schätzer ist erwartungstreu über alle möglichen Stichprobenziehungen, d.h. es gilt:

$$E_p (\hat{t}_y)= t_y$$

Er hat die Varianz:

$$ V_p(\hat{t}_y )&=& \sum_{k \in U}   \sum_{l \in U}Cov (I_k,I_l)\frac{y_k}{\pi_k}

   \frac{y_l}{\pi_l} \\

 &=& \sum_{k \in U}\sum_{l \in U} (\pi_{k,l}- \pi_{k} \pi_{l}) \frac{y_k}{\pi_k}   \frac{y_l}{\pi_l}$$

Hierbei bedeutet die Doppelsumme \(\sum_{k \in U}\sum_{l \in U}\) die Summation über alle \((k,l)\)-Kombinationen der Grundgesamtheit. Die Kovarianz \(Cov (I_k,I_l)\) der Inklusionsindikatoren \(I_k\) und \(I_l\) berechnet sich als \(\pi_{k,l}- \pi_{k} \pi_{l}\).

Schließlich benötigt man noch eine Schätzung für die obige Varianz auf Basis der Stichprobe. Man erhält diese durch einen Standardtrick, indem man die Doppelsumme über die Grundgesamtheit durch die Doppelsumme über die Stichprobe ersetzt und den Gewichtungsfaktior \(\frac{1}{\pi_{k,l}}\) benutzt:

$$\widehat{V}(\hat{t}_y )= \sum_{k \in s} \sum_{l \in s} \frac{Cov(I_k,I_l)}{\pi_{k,l}}\frac{y_k}{\pi_k} \frac{y_l }{\pi_l} $$

Es ist das Ziel des Einsatzes von unterschiedlichen Stichprobenverfahren die Varianz \(V_p(\hat{t}_y )\) möglichst klein zu halten.

 

Die einfache zufällige Stichprobe

Simple Random Sampling ohne Zurücklegen (Notation: SI,  SRS  SRSWOR) oder mit Zurücklegen (Notation: SIR, SRSWR)

Eigenschaften: Fester Stichprobenumfang \(n\). Konstante Auswahlwahrscheinlichkeiten \(\pi_k=\frac{n}{N}\) und \(\pi_{k,l}=\frac{n(n-1)}{N(N-1)}\) (Ohne Zurücklegen).

Populationsschätzer:

$$\hat{t}_y = N \bar{y}_s \qquad  \bar{y}_s= \frac{1}{n}\sum_{s} y_k $$

Varianz:

$$\hat{V}(\hat{t}_\pi)=N^2\left(\frac{1}{n}-\frac{1}{N}\right)$$

$$S_{y,s}^2 \qquad S_{y,s}^2=\frac{1}{n-1}\sum_{s} (y_k-\bar{y}_s)^2$$

 

 Zum Umgang mit Abbildungen und Tabellen

 Format im Text

Abbildungen und Tabellen werden zentriert. Alle Abbildungen besitzen eine Bildüberschrift, die Teil der Abbildung ist. Wenn dies nicht möglich ist, dann wird entsprechend im Wiki-Editor eine zentrierte Überschrift hinzugefügt. Nach Möglichkeit sollten Bilder eine Überschrift als Eigenschaft haben.

Abweichung

 

 

 

 

 

Abweichung

Abbildungen können und sollten über Infoboxen verfügen. Die Infobox besitzt den selben Titel wie die Abbildung. In dieser Box können Quellenangaben und weitere Informationen enthalten sein.

Unterhalb der Infobox können und sollten die Verweise zu den Dateien (Daten, Skripte und dem Bild selbst) auftauchen.

Bildergalerie

  • Keine Stichwörter