Versionen im Vergleich

Schlüssel

  • Diese Zeile wurde hinzugefügt.
  • Diese Zeile wurde entfernt.
  • Formatierung wurde geändert.

Es wird ein knapper Überblick  über Basiskonzepte der Stichprobentheorie im Stile eines Crash-Kurses gegeben.

Ein einführendes Lehrbuch ist: Lohr (2010) Sampling: Design and Analysis (2. ed. Boston : Brooks/Cole).

Inhaltsverzeichnis

Inhalt
maxLevel2
excludeInhaltsverzeichnis|Bildergalerie

Der Design-basierte Ansatz

Der Design-basierte Ansatz behandelt die Ziehung einer Stichprobe aus einer endlichen Grundgesamtheit. Hierbei sind die Merkmale der Elemente der Grundgesamtheit feste Grössen. Zufällig ist allein die Auswahl der Einheiten für die Stichprobe. Das Wahrscheinlichkeitsgesetz, nach dem eine Stichprobe gezogen wird, bezeichnet man als Stichproben-Design.

Das Stichproben-Design ist bekannt. Es muss nicht geschätzt werden. Geschätzt werden sollen fixe Grössen der Grundgesamtheit, z.B. die Gesamtanzahl von Personen mit einem bestimmten Merkmal in der Grundgesamtheit. Beispielsweise die Gesamtanzahl der Personen in Deutschland, die zu einem bestimmten Zeitpunkt studieren. Diese Zahl soll auf Basis der zufälligen Stichprobe geschätzt werden. Damit ist die Schätzung des Populationswerts auf Basis der Stichprobe eine zufällige Grösse. Als Zufall fungiert hier die zufällige Stichprobe.

Alle Aussagen über die Varianz der Schätzer basieren auf der Zufälligkeit der Stichprobe. Die Stichprobentheorie präsentiert verschiedene Designs (Stichprobenverfahren), die diese Varianz unter bestimmten Umständen klein werden lassen.

Aufgaben der Stichprobentheorie:

  • Angabe von Schätzern für Populationswerte.
  • Schätzung der Genauigkeit (=Varianz) dieser Schätzer.
  • Bestimmung eines Varianz-optimalen Stichprobenverfahrens (=Designs)
  • Optimale Allokation des Stichprobenumfangs (Kostenoptimalität)

Weitere Felder sind: Die Behandlung von Nonresponse und die Behandlung von Zusatzinformationen aus anderen Quellen über Kalibration.

Inklusionswahrscheinlichkeiten

Eine zufällige Stichprobe \(S \subset U \) werde gemäß einer  \textbf{bekannten Wahrscheinlichkeitsverteilung}  \(p\) gezogen. Für die realisierte Stichprobe \(s\) gilt damit :

$$P(S=s)=p(s)$$

Über das Design \(p\) sind dann auch die Inklusionswahrscheinlichkeiten für jede Einkeit \(k \in U\) bestimmt. Es sei  \(I_k=1\), falls Einheit \(k\) mit der Stichprobe gezogen wird. Ist \(k\) nicht in der Stichprobe, so wird dies durch  \(I_k=0\) angezeigt.

$$P( k \in S )&=& \sum\limits_{s \ni k} p(s) \\

    &=& P(I_k=1) \\

    &=& \pi_k$$

Hierbei bezeichnet der erste Term auf der rechten Seite die Summe über alle möglichen Stichproben, die die Einheit \(k\) enthalten.

Analog definiert man die Wahrscheinlichkeit \(\pi_{k,l}\) über  das Ereignis, dass die Einheiten \(k\) und \(l\) ausgewählt werden. Man erhält:

$$P( k,l \in S )&=& \sum\limits_{s \ni k,l} p(s) \\

    &=& P(I_k=1, I_l=1) \\

    &=& \pi_{k,l}$$

 

Interessierende Populationsparameter

Von Interesse sind meist einfach zu interpretierende Grössen der Grundgesamtheit wie das Gesamtaufkommen (Total), Mittelwerte oder Verhältnisse (Ratios):

$$t_y=\sum_{k\in U}y_k  \quad \quad \mbox{(Totals)} $$

$$\overline{y}_U=\frac{1}{N} \sum_{k\in U}y_k  \quad \quad \mbox{(Mittelwerte)} $$

$$\frac{t_y}{t_x}=\frac{\overline{y}_U}{\overline{x}_U}  \quad \quad \mbox{(Ratios)}$$

 Zur Schätzung dieser Populationswerte braucht man eine Schätzfunktion auf Basis der Stichprobe \(s\).

 

Der \(\pi\)-Schätzer und seine Eigenschaften

Die Schätzung über den Kehrwert der Auswahlwahrscheinlichkeit (kurz: der \(\pi\)-Schätzer) schätzt das Gesamtaufkommen \(t_y\) durch:

$$\nonumber \hat{t}_y &=& \sum_{k \in  U}\frac{I_k}{\pi_k}y_k \\

  &=& \sum_{k \in s}\frac{y_k}{\pi_k} \label{app_2}$$

Im deutschsprachigen Bereich wird dieser Schätzer auch als ''Freie Hochrechnung'' bezeichnet.

Der Schätzer besitzt eine sehr einfache Interpretation: Jede Person \(k\) in der Stichprobe zählt wie \(1< 1/\pi_k\) Personen in der Grundgesamtkeit. Im Mikrozensus gilt beispielsweise \(1/\pi_k = 100\). Der Faktor \(w_k=1/\pi_k\) wird auch als Designgewicht bezeichnet.

Der \(\pi\)-Schätzer ist erwartungstreu über alle möglichen Stichprobenziehungen, d.h. es gilt:

$$E_p (\hat{t}_y)= t_y$$

Er hat die Varianz:

$$ V_p(\hat{t}_y )&=& \sum_{k \in U}   \sum_{l \in U}Cov (I_k,I_l)\frac{y_k}{\pi_k}

   \frac{y_l}{\pi_l} \\

 &=& \sum_{k \in U}\sum_{l \in U} (\pi_{k,l}- \pi_{k} \pi_{l}) \frac{y_k}{\pi_k}   \frac{y_l}{\pi_l}$$

Hierbei bedeutet die Doppelsumme \(\sum_{k \in U}\sum_{l \in U}\) die Summation über alle \((k,l)\)-Kombinationen der Grundgesamtheit. Die Kovarianz \(Cov (I_k,I_l)\) der Inklusionsindikatoren \(I_k\) und \(I_l\) berechnet sich als \(\pi_{k,l}- \pi_{k} \pi_{l}\).

Schließlich benötigt man noch eine Schätzung für die obige Varianz auf Basis der Stichprobe. Man erhält diese durch einen Standardtrick, indem man die Doppelsumme über die Grundgesamtheit durch die Doppelsumme über die Stichprobe ersetzt und den Gewichtungsfaktior \(\frac{1}{\pi_{k,l}}\) benutzt:

$$\widehat{V}(\hat{t}_y )= \sum_{k \in s} \sum_{l \in s} \frac{Cov(I_k,I_l)}{\pi_{k,l}}\frac{y_k}{\pi_k} \frac{y_l }{\pi_l} $$

Es ist das Ziel des Einsatzes von unterschiedlichen Stichprobenverfahren die Varianz \(V_p(\hat{t}_y )\) möglichst klein zu halten.

 

Die einfache zufällige Stichprobe

Simple Random Sampling ohne Zurücklegen (Notation: SI,  SRS  SRSWOR) oder mit Zurücklegen (Notation: SIR, SRSWR)

Eigenschaften: Fester Stichprobenumfang \(n\). Konstante Auswahlwahrscheinlichkeiten \(\pi_k=\frac{n}{N}\) und \(\pi_{k,l}=\frac{n(n-1)}{N(N-1)}\) (Ohne Zurücklegen).

Populationsschätzer:

$$\hat{t}_y = N \bar{y}_s \qquad  \bar{y}_s= \frac{1}{n}\sums y_k $$

Varianz:

$$\hat{V}(\hat{t}_\pi)=N^2\left(\frac{1}{n}-\frac{1}{N}\right)$$

$$S_{y,s}^2 \qquad S_{y,s}^2=\frac{1}{n-1}\sums (y_k-\bar{y}_s)^2$$

 

Sequentielle Stichprobenverfahren

Für jede Einheit der Grundgesamtheit wird per Zufall unabhängig entschieden, ob die Einheit in die Stichprobe gelangt oder nicht: Bernoulliexperiement! Damit ist der Stichprobenumfang zufällig (\(\Rightarrow\) Varianzvergrößerung).

  • Bernoulli-Sampling: Erfolgswahrscheinlichkeit konstant \(\pi\). Erwarteter Stichprobenumfang: \(E(n)=N \pi\)
  • Poisson-Sampling: Erfolgswahrscheinlichkeit \(\pi_k\) variiert. Erwarteter Stichprobenumfang: \(E(n)=\sumu \pi_k\)

 

Probability Proportional Size

Motivation: Die Varianz des \(\pi\)-Schätzers wird sehr klein, falls \(\pi_k \approx const \times y_k\), da dann \(\hat{t}_y =\sums \frac{y_k}{\pi_k}\approx n \times 1/const\).

In der Praxis wird man ein Merkmal \(x_k\) wählen, das mit \(y_k\) hoch korreliert ist und für alle \(k \in U\) bekannt sein muss. Dies ist bei Firmendaten häufig der Fall. Beispiel: \(y_k\)= Ausgaben F+E in Betrieb \(k\). \(x_k\)=Anzahl Beschaftigte in Betrieb \(k\)

Die Realisierung eines Ziehungsverfahrens ist beim Ziehen mit Zurücklegen (PPS) relativ einfach: Jede Einheit \(k\) wird durch eine Strecke der Länge \(x_k\) auf einem Intervall der Gesmtlänge \(L= \sumu x_k\) repräsentiert. Es wird eine gleichverteilte Zufallszahl aus dem Intervall \([0,L]\) gezogen und die Einkeit gewählt, in deren Bereich die Zufallszahl gefallen ist.

Die Realisierung eines Ziehungsverfahrens ohne Zurücklegen (\(\pi\)ps) ist schwierig und aufwändig.

 

Geschichtete Stichprobe

Die Verteilung der Stichprobenumfänge auf einzelne Teilgruppen (Englisch: Strata) der Grundgesamtheit. Hierzu  muss die separate Ziehung einer Stichprobe innerhalb jedes Stratums realisierbar sein. Die Strata sollen so gewählt werden, dass die Streuung zwischen den Strata-Mittelwerten (Between-Varianz) möglichst groß ist.  Die Varianz des \(\pi\)-Schätzers ist dann durch die verbliebene Within-Streuung gegeben. Verwendet man den \(SI\)-Sampling in jeder Schicht, so erhält man.

$$\hat{t}_y= \sum_{h=1}^H N_h \bar{y}_{s_h}$$

 und:

$$\hat{V}(\hat{t}_y)=\sum_{h=1}^H N_h^2\left(\frac{1}{n_h}-\frac{1}{N_h}\right)$$

$$S_{y,s_h}^2 \qquad  S_{y,s_h}^2= \frac{1}{n_h-1}\sumsh (y_k-\bar{y}_{s_h})^2$$

Hierbei ist  \(h\) der Schichtindex, \(n_h\) der Umfang der Stichprobe \(s_h\) in Schicht \(h\) und \(N_h\) der Populationsumfang der Schicht \(h\).

Häufig wird nach regionalen Merkmalen, z.B. Bundesland, und innerhalb dieser Regionalschichten nach Siedlungstypen, z.B. fachliche Gliederung beim Mikrozensus, geschichtet.

Häufig wird der Umfang der Stichproben in der jeweiligen Schicht proportional zur (bekannten!) Schichtgröße gewählt.

 

Klumpen-Stichproben (Cluster Sampling)

Klumpen-Stichproben benötigt man, wenn man keinen Auswahlrahmen auf den benötigten Einheiten hat. Beispielsweise gibt es kein nationales Verzeichnis von Schülern. Allerdings kann man zunächst Schulen auswählen und dann alle Schüler der ausgewählten Schule.

Eine weitere Motivation für Cluster Sampling ist die Reduktion der Feldkosten in einer Interviewer-basierten Befragung wie dem Mikrozensus. Hier wird ganz Deutschland in kleineste Flächenstücken von jeweils ca. 12 Haushalten eingeteilt und alle Haushalte dieses ''Auswahlbezirks'' werden interviewt. Cluster Sampling führt aufgrund der häufigen räumlichen Korrelation der Merkmale in der Stichprobe zu einer Vergrösserung der Varianz des Populationsschätzers.

 

Systematisches Ziehen

Das Ziehungsverfahren basiert auf:

  • Einer Reihung der Auswahleinheiten in der Grundgesamtheit
  • Der Festlegung einer Größe \(x_{k}\) für jede Einheit  \(k\)

    Anordnung GrößeKumulierte Größe
    1 \(x_1\)\(X_1=x_1\)
    2 \(x_2\)\(X_2=x_1+x_2\)

    \(\vdots\)

     

    \(\vdots\)

    \(\vdots\)

    3 

    \(x_N\) 

    \(X_N=\sum_{k=1}^N x_k \)
         

 

      \item
  • Bestimmung einer Intervalllänge  $d$ über die angestrebte Stichprobengröße
$n$
  • \(n\):
    \[
  • $$(n+1)d= X_{N} = \sum_{k=1}^N x_{k}
\]

 

    \item
  • $$
  • Ein zufälliger Startwert
$Z$
  • \(Z\) gleichverteilt auf dem Intervall [0,d] wird gezogen.

 

     \item
  • Es werden diejenigen Einheiten $i$ ausgewählt, wo einer der Werte
$z + kd$ $
  • \(z + kd\) \((k = 0,1, \ldots,  (n-1))\)
$
  • in das Intervall
     $
  • \((X_{i-1}, X_{i}]
$
  • \) fällt.
\\[4mm]\end{itemize}

 \begin{center}

 \includegraphics[scale=0.2]{pics/Zeichnung1.jpg}\end{center}

 

Bei diesem Ziehungsverfahren gibt es zu jeder zufälligen Startzahl ein Cluster von gezogenen Einheiten. Es wird jedoch nur ein einziges Cluster gezogen, so dass eine Varianzschätzung prinzipiell nicht möglich ist. Simulationsstudien belegen, dass die Varianz der Populationsschätzer in vielen Fällen deutlich geringer als die Varianz einer einfachen Stichprobe ist. 

Das Verfahren wird in der Praxis häufig als sogenanntes Random-Route Verfahren  angewendet: Ausgehend von einer festen Startadresse wird ein Stadbezirk nach festen Begungsregeln abgelaufen. Längst der Route wird jeder d. Klingelknopf ausgewaehlt.

 

 Zum Umgang mit Abbildungen und Tabellen

 Format im Text

Abbildungen und Tabellen werden zentriert. Alle Abbildungen besitzen eine Bildüberschrift, die Teil der Abbildung ist. Wenn dies nicht möglich ist, dann wird entsprechend im Wiki-Editor eine zentrierte Überschrift hinzugefügt. Nach Möglichkeit sollten Bilder eine Überschrift als Eigenschaft haben.

Abweichung

 

 

 

 

 

Info
titleAbweichung

Abbildungen können und sollten über Infoboxen verfügen. Die Infobox besitzt den selben Titel wie die Abbildung. In dieser Box können Quellenangaben und weitere Informationen enthalten sein.

Unterhalb der Infobox können und sollten die Verweise zu den Dateien (Daten, Skripte und dem Bild selbst) auftauchen.

Anhänge
previewfalse
uploadfalse
oldfalse
labelsabweichung

Bildergalerie

Galerie