Hypergeometrische Verteilung

Joachim Zink

unread,

Apr 5, 2005, 2:22:28 AM4/5/05

to

Hallo,

die Formel für die Wahrscheinlichkeitsberechnung einer
hypergeometrischen Verteilung lautet:

/K\ /N-K\
\k/ \n-k/
p = ---------
/N\
\n/

Ich würde jetzt gerne diese Formel nach n auflösen, um die
Stichprobengröße für ein gegebenes p zu finden, so dass da steht:

n = irgendwas ...

Nachdem ich zwei Tage rumgerechnet habe, glaub ich fast, das geht gar
nicht. Klar kann ich unter Excel z.B. mit den Werten so lange
rumspielen, bis ich die gewünschte Näherung habe. Aber geht das
"geschlossen"? Kann ich nach n auflösen?
Könnte mir jemand helfen?
Sorry, wenn die Frage blöd ist, aber ich bin kein
Mathematiker/Statistiker.

Danke und
Grüße
Joachim

Kurt Watzka

unread,

Apr 5, 2005, 3:04:48 AM4/5/05

to

Joachim Zink wrote:

> Hallo,
>
> die Formel für die Wahrscheinlichkeitsberechnung einer
> hypergeometrischen Verteilung lautet:
>
> /K\ /N-K\
> \k/ \n-k/
> p = ---------
> /N\
> \n/
>
> Ich würde jetzt gerne diese Formel nach n auflösen, um die
> Stichprobengröße für ein gegebenes p zu finden, so dass da steht:
>
> n = irgendwas ...

Das hilft nicht zur Bestimmung der Stichprobengroesse. Dafuer muessen
Bedingungen an die Ablehnwahrscheinlichkeit bei gegebenem K formuliert
werden. Die Ablehnwahrscheinlichkeit ist durch die Verteilungsfunktion,
nicht durch die Wahrscheinlichkeitsfunktionen festgelegt. Du musst also
eine Summe von solchen Wahrscheinlichkeiten "nach n aufloesen".

Um einen Stichprobenumfang fuer eine Schaetzung zu waehlen brauchst
Du nicht "ein gegebenes p" sondern eine Vorgabe fuer die
Irrtumswahrscheinlichkeit und eine Vorgabe fuer die geforderte
Genauigkeit.

Um einen Stichprobenumfang fuer einen Alternativtest zu waehlen brauchst
Du eine Hypothese, eine Alternative und eine Vorgabe fuer die maximale
Irrtumswahrscheinlichkeit. Nur mit der Vorgabe eines Verhaeltnisses K/N
ist die Frage nicht ausreichend spezifiziert.

Kurt Watzka

Joachim Zink

unread,

Apr 5, 2005, 10:33:59 AM4/5/05

to

Kurt Watzka <wat...@stat.uni-muenchen.de> wrote in message news:<d2th0p$h2h$04$1...@news.t-online.com>...

Hallo Kurt,
vielen Dank für Deine Hilfe.
Darf ich an einem konkreten Beispiel nochmals nachfragen? Ich hab
Schwierigkeiten, dies auf mein spezielles Problem anzuwenden.

Angenommen, ich habe eine Grundgesamtheit von N=500 Prüffällen (z.B.
Akten), in denen sich eine unbekannte Anzahl K von Auffälligen
befindet.
Ich weiß nicht wie viele.
Wie muss ich eine Stichprobe wählen, damit ich diese Anzahl der
Auffälligen zuverlässig schätzen kann, wenn ich keine weiteren
Vorinformationen habe?
Wie muss ich hier vorgehen?

Danke und Grüße
Joachim

> Kurt Watzka

Kurt Watzka

unread,

Apr 5, 2005, 11:37:59 AM4/5/05

to

Joachim Zink wrote:

> Kurt Watzka <wat...@stat.uni-muenchen.de> wrote in message
> news:<d2th0p$h2h$04$1...@news.t-online.com>...
>> Joachim Zink wrote:
>>

[Wahrscheinlichkeitsfunktion der hypergeometrischen Verteilung]

>> > Ich würde jetzt gerne diese Formel nach n auflösen, um die
>> > Stichprobengröße für ein gegebenes p zu finden, so dass da steht:
>> >
>> > n = irgendwas ...
>>
>>

>> Um einen Stichprobenumfang fuer eine Schaetzung zu waehlen brauchst
>> Du nicht "ein gegebenes p" sondern eine Vorgabe fuer die
>> Irrtumswahrscheinlichkeit und eine Vorgabe fuer die geforderte
>> Genauigkeit.
>>

[Variante fuer Alternativtest]

>
> Hallo Kurt,
> vielen Dank für Deine Hilfe.
> Darf ich an einem konkreten Beispiel nochmals nachfragen? Ich hab
> Schwierigkeiten, dies auf mein spezielles Problem anzuwenden.
>
> Angenommen, ich habe eine Grundgesamtheit von N=500 Prüffällen (z.B.
> Akten), in denen sich eine unbekannte Anzahl K von Auffälligen
> befindet.
> Ich weiß nicht wie viele.
> Wie muss ich eine Stichprobe wählen, damit ich diese Anzahl der
> Auffälligen zuverlässig schätzen kann, wenn ich keine weiteren
> Vorinformationen habe?
> Wie muss ich hier vorgehen?

1.) eine geforderte Genauigkeit und einen geforderten Vertrauensgrad
(1 - Irrtumswahrscheinlichkeit) festlegen.

2.) n als das kleinste n waehlen, fuer dass im schlimmsten Fall, also
fuer das unguenstigste K die Intervallschaetzung fuer K
zum geforderten Vertrauensgrad die geforderte Genauigkeit
einhaelt (numerisch zu loesen)

Zu Ueberlegen ist auch, ob es fuer die Loesung dieser Aufgabe wirklich
lohnend ist, die Endlichkeit der Grundgesamtheit schon be der
Stichprobenplanung zu beruecksichtigen.

Kurt Watzka

Joachim Zink

unread,

Apr 6, 2005, 4:37:02 AM4/6/05

to

Kurt Watzka <wat...@stat.uni-muenchen.de> wrote in message news:<d2uf32$buk$05$1...@news.t-online.com>...
>
> [Wahrscheinlichkeitsfunktion der hypergeometrischen Verteilung]
> [...]>
> [Variante fuer Alternativtest]
>
> > [...]

> > Angenommen, ich habe eine Grundgesamtheit von N=500 Prüffällen (z.B.
> > Akten), in denen sich eine unbekannte Anzahl K von Auffälligen
> > befindet. Ich weiß nicht wie viele. Wie muss ich eine Stichprobe wählen,
> > damit ich diese Anzahl der Auffälligen zuverlässig schätzen kann, wenn ich
> > keine weiteren Vorinformationen habe?
> > Wie muss ich hier vorgehen?
>
> 1.) eine geforderte Genauigkeit und einen geforderten Vertrauensgrad
> (1 - Irrtumswahrscheinlichkeit) festlegen.
>
> 2.) n als das kleinste n waehlen, fuer dass im schlimmsten Fall, also
> fuer das unguenstigste K die Intervallschaetzung fuer K
> zum geforderten Vertrauensgrad die geforderte Genauigkeit
> einhaelt (numerisch zu loesen)
>
> Zu Ueberlegen ist auch, ob es fuer die Loesung dieser Aufgabe wirklich
> lohnend ist, die Endlichkeit der Grundgesamtheit schon be der
> Stichprobenplanung zu beruecksichtigen.

Mit konkreten Zahlen: angenommen

Irrtumswahrscheinlichkeit alpha = 0.05 (5%)
Genauigkeit 0.1 (10%)

was genau bzw. nach welcher Formel müssste ich jetzt n errechnen?
(Ist mir noch nicht klar).

Grüße
Joachim

>
> Kurt Watzka

Kurt Watzka

unread,

Apr 7, 2005, 2:02:09 PM4/7/05

to

Joachim Zink wrote:

> Kurt Watzka <wat...@stat.uni-muenchen.de> wrote in message
> news:<d2uf32$buk$05$1...@news.t-online.com>...

>> > Angenommen, ich habe eine Grundgesamtheit von N=500 Prüffällen (z.B.

>> > Akten), in denen sich eine unbekannte Anzahl K von Auffälligen
>> > befindet. Ich weiß nicht wie viele. Wie muss ich eine Stichprobe
>> > wählen, damit ich diese Anzahl der Auffälligen zuverlässig schätzen
>> > kann, wenn ich keine weiteren Vorinformationen habe?
>> > Wie muss ich hier vorgehen?
>>
>> 1.) eine geforderte Genauigkeit und einen geforderten Vertrauensgrad
>> (1 - Irrtumswahrscheinlichkeit) festlegen.
>>
>> 2.) n als das kleinste n waehlen, fuer dass im schlimmsten Fall, also
>> fuer das unguenstigste K die Intervallschaetzung fuer K
>> zum geforderten Vertrauensgrad die geforderte Genauigkeit
>> einhaelt (numerisch zu loesen)
>>
>> Zu Ueberlegen ist auch, ob es fuer die Loesung dieser Aufgabe wirklich
>> lohnend ist, die Endlichkeit der Grundgesamtheit schon be der
>> Stichprobenplanung zu beruecksichtigen.
>
> Mit konkreten Zahlen: angenommen
>
> Irrtumswahrscheinlichkeit alpha = 0.05 (5%)
> Genauigkeit 0.1 (10%)
>
> was genau bzw. nach welcher Formel müssste ich jetzt n errechnen?
> (Ist mir noch nicht klar).

Wenn der vorgegebene Fehler als absolute Fehlervorgabe zu sehen ist,
dann ergibt sich mit bei Verzicht auf die Beruecksichtigung der
abhaengigkeit wegen des geringen Umfangs der Grundgesamtheit und bei
Verwendung der Approximation der Binomialverteilung durch die
Normalverteilung

n = n_0 / (1 + n_0 / N) mit n_0 = (z^2 p (1-p)) / e^2

Dabei ist z das zur vorgegebenen Irrtumswahrscheinlichkeit passende
zweiseitige "Fraktil" der Standardnormalverteilung, also hier etwas 1,96,
und p ist der geschaetzte Anteil. Dieser ist vor der Schaetzung
normalerweise nicht bekannt, so dass im Zweifel das p angenommen
werden muss, fuer das n_0 den groessten Wert annimmt, also 0,5.
Damit ist n_0 etwa 96,04 und n etwa 94,23. Es genuegt also ein Stichproben-
umfang von 95, um eine absolute Genauigkeit von 0,1 einzuhalten.

Wenn der vorgegebene Fehler als relative Fehlervorgabe anzusehen ist,
dann kann ueberhaupt kein unguenstiger Fall angegeben werden, d.h.
ohne eine Vorinformation ueber den Anteil der auffälligen Akten kann
kein Stichprobenumfang fuer die Vorgabe einer relativen Genauigkeit
geplant werden. Aus dem Umfang der Grundgesamtheit wissen wir aber,
dass wenn es ueberhaupt auffaellige Akten gibt, deren Anteil mindestens
1/5000 sein muss. Fuer diesen Fall kann also

n_0 = ((1-p) * z^2)/(p * e^2)

angesetzt werden. Wenn die Zahlen aus dem Beispiel eingesetzt werden,
dann ergibt sich daraus ein benötigter Stichprobenumfang von 4988.
Diese Grenze gilt aber unter der Bedingung, dass ueberhaupt auffaellige
Akten vorhanden sind. Deren Abwesenheit wird (mit einer
Irrtumswahrscheinlichkeit von 0,05) mit einem Stichprobenumfang von
0,95 * 5000 oder 4750 nachzuweisen sein, so dass der Fall von einer
auffaelligen Akte wirklich als der unguenstigste Fall anzusehen ist.

Soweit sollte diese Information in jedem Lehrbuch zur Stichprobenplanung
zu finden sein. Die Frage ist jetzt, wie dieses Ergebnis ueber den
Verzicht auf die Approximation durch die Normalverteilung und
durch die Beruecksichtigung der Abhaengigkeit der Stichprobenvariablen
aufgrund des geringen Umfangs der Grundgesamtheit verbessert werden kann.

Dazu ist numerisch der kleinste Stichprobenumfang zu finden, fuer den
das zweiseitige Konfidenzintervall fuer den Parameter K der
hypergeometrischen Verteilung hoechstens eine Breite von 5000 * 0,2
also 1000 hat (fuer eine absolute Genauigkeit von 0,1).

Ein Konfidenzintervall fuer den Parameter K der hypergeometrischen
Verteilung laesst sich ueber die Dualitaet zwischen Schaetzungen
und Tests konstruieren. Das zweiseitige Konfindezintervall besteht
aus allen Parametern, fuer die ein zweiseitiger Test mit der
eingeraeumten Irrtumswahrscheinlichkeit nicht zur Ablehnung
fuehren wuerde. Bei der Wahl eines zweiseitigen Tests fuer eine
nicht symmetrische Verteilung wie die hypergeometrische Verteilung
sind verschiedene Vorgehensweisen denkbar. Tests, die die
Irrtumswahrscheinlichkeit ausschoepfen, sind im Allgemeinen
randomisierte Tests, so dass Konfidenzintervalle aus allen
Parameterwerten gebildet werden muessen, die nicht sicher
zur Ablehnung fuehren.

Also fuer die Vorgabe eines absoluten Fehlers als Intervallbreite:

Stichprobenumfang := 4999;
Wiederhole
maximalerFehler := 0;
Fuer alle k von 0 bis Stichprobenumfang
(L, U) := zweiseitigesKIFuerK(Stichprobenumfang, k, 5000);
Wenn U - L > maximalerFehler
maximalerFehler := U - L;
Stichprobenumfang := Stichprobenumfang - 1;
bis maximalerFehler > Grenze;
Ergebnis := Stichprobenumfang + 1;

Bei der Vorgabe eines relativen Fehler kommen noch Probleme mit
der Betrachtung der moeglichen Werte fuer den Parameter K und
mit der Berechung eines relativen Fehlers fuer K = 0 hinzu.

Zur Bestimmung eines zweiseitigen KI fuer K kann beispielsweise ein Test
verwendet werden, der den Ablehnbereich aus den am wenigsten
wahrscheinlichen Werten bildet. Dazu werden abzulehnende Werte
"von oben und von unten nach aufsteigenden Wahrscheinlichkeiten"
zum Ablehnbereich genommen, bis die Wahrscheinlichkeit fuer den
Ablehnbereich durch das Hinzunehmen eines weiteren abzulehnenden
Wertes die zugelassene Irrtumswahrscheinlichkeit ueberschreiten wuerde.
Dieser Test ist nicht unverfaelscht und nutzt die vorgegebene
Irrtumswahrscheinlichkeit nicht aus, sollte aber fuer die
Abschaetzung des Stichprobenumfangs ausreichende Information
liefern.

Kurt Watzka

Joachim Zink

unread,

Apr 11, 2005, 4:28:05 AM4/11/05

to

Kurt Watzka <wat...@stat.uni-muenchen.de> wrote in message news:<d3408p$l4f$05$1...@news.t-online.com>...

Hallo Kurt,
ganz herzlichen Dank für Deine ausführliche Hilfestellung. Das hat mir
sehr geholfen.

> [...]

> Soweit sollte diese Information in jedem Lehrbuch zur Stichprobenplanung

> zu finden sein. Die Frage ist jetzt, ...

Könntest Du mir noch einen Tipp geben, in welchem Lehrbuch das Kapitel
Stichprobenplanung didaktisch einigermaßen gut abgehandelt ist? Ich
selbst benutze überwiegend den "Sachs" (Angewandte Statistik), aber
hier sind die Informationen zur Stichprobenplanung verstreut und nicht
mit erklärendem Hintergrund nachzulesen. Ansonsen benutze ich noch den
"Stanton" (Biostatistics) und von Borzt-Döring "Forschungsmethoden und
Evaluation". Bei den letzten beiden wird auf die Berechnung des
Stichprobenumfangs nicht besonders eingegangen.
Wäre für einen Literaturhinweis dankbar.

Grüße
Joachim

>
> Kurt Watzka

Joachim Zink

unread,

Apr 13, 2005, 2:34:33 AM4/13/05

to

Sorry, wenn ich nochmals nachfrage.
Aber das Thema Stichproben bzw. notwendige Stichprobengröße ist für
mich sehr wichtig, weshalb ich das gerne richtig erarbeiten würde.
Da die Materie ziemlich anspruchsvoll ist, meine Bitte:
Könnte mir jemand Literatur (oder Web-Links) nennen, wo das Thema
Stichprobengröße ausführlich (nicht bloße Formeln ohne Erklärung)
abgehandelt ist. Hab im Netz mal gegoogelt, aber ich glaube, ich werde
mir doch lieber ein (Lehr-)Buch/Bücher hierzu besorgen.
Was käme in Frage?

Danke und Grüße
Joachim

Kurt Watzka

unread,

Apr 13, 2005, 7:50:34 AM4/13/05

to

Joachim Zink wrote:

Die Vorstellungen darueber, was "didaktisch gut" ist, koennen sehr
unterschiedlich sein. Der deutschsprachige Klassiker ist Stenger,
Stichproben; ISBN 3790803197. Aber Vorsicht: Eine kochbuchmaeszige
Sammlung findest Du da auch nicht.

Wenn Du grundsaetzlich den Zusammenhang zwischen Konfindenzintervallen
und fuer eine gegebenen Genauigkeit benoetigten Stichprobenunfaengen
kennst (beides ist die gleiche Beziehung, nur unterschiedlich aufgeloest),
dann sollte Dir auch der Teil zu Intervallschaetzugen in einem
Standardlehrbuch weiterhelfen, nur die Arbeit des passenden Umformens oder
passenden numerischen Loesens eines Optimierungsproblems bleibt dann noch
selbst zu tun.

Kurt Watzka

Joachim Zink

unread,

Apr 14, 2005, 1:42:57 AM4/14/05

to

Kurt Watzka <wat...@stat.uni-muenchen.de> wrote in message news:<d3j4oh$div$04$1...@news.t-online.com>...

Hallo Kurt,
vielen Dank für Deine nochmalige Hilfe.

> .. Der deutschsprachige Klassiker ist Stenger,
> Stichproben; ISBN 3790803197.

Kannte ich nicht. Werd ich mir besorgen.

> Aber Vorsicht: Eine kochbuchmaeszige
> Sammlung findest Du da auch nicht.

Kommt mir entgegen. Ich will das ganze verstehen und nicht blind was
abschreiben.

> Wenn Du grundsaetzlich den Zusammenhang zwischen Konfindenzintervallen
> und fuer eine gegebenen Genauigkeit benoetigten Stichprobenunfaengen
> kennst (beides ist die gleiche Beziehung, nur unterschiedlich aufgeloest),
> dann sollte Dir auch der Teil zu Intervallschaetzugen in einem
> Standardlehrbuch weiterhelfen, nur die Arbeit des passenden Umformens oder
> passenden numerischen Loesens eines Optimierungsproblems bleibt dann noch
> selbst zu tun.

Das ist genau der Punkt. Hier fehlt mir noch ein ganzes Stück
Verständnis.
Ich hab mich deshalb entschlossen, zweigleisig zu fahren: Ich setz
mich nochmals als Gasthörer in eine Vorlesung des Instituts für
Medizinische Statistik hier in Freiburg und lese/arbeite das Ganze
parallel systematisch nach.
Und wenn's dann immer noch irgendwo hapert, wovon ich mal ausgehe,
frag ich nochmal hier in der NG nach :-))
Also: Ganz herzlichen Dank. Der Thread hat mir viel gebracht.

Grüße
Joachim

>
> Kurt Watzka