OK, also hier die Nullhypothese: Das Schicksal ha�t mich
und sorgt auf magische Weise daf�r, da� trotz zuf�lliger
Ankunft immer die S-Bahn grad weg ist. (Z.B. mit zuf�lliger
Versp�tung - ist aber ziemlich p�nktlich.) Wie gro� mu� meine
Stichprobe sein, damit man dies auf einem Standard-5%-Niveau
testen kann? (Sollte Erstsemester-Statistik-Wissen sein,
habe ich aber nicht :-)
P.S. Es ist v�llig klar, da�, wenn ich ab morgen die
Stichprobennahme konsequent protokolliere, die S-Bahn immer sofort
kommen wird, da ich ansonsten gewonnen habe. Aber das ist doch
schon mal eine Verbesserung :-)
--
Hauke Reddmann <:-EX8 fc3...@uni-hamburg.de
Nur Schufte schuften - Genie genie�t.
> Und wenn ich dann ankomme, ist die S-Bahn (alle 10 Minuten)
> immer gerade weg. W�rde mal sagen, letzten 2 Wochen,
> ca. 15 Stichproben, ca. 12x weg.
> (Potentieller N�rgel 3&4: Stichprobe klein, Wahrnehmungsbias.)
>
> OK, also hier die Nullhypothese: Das Schicksal ha�t mich
> und sorgt auf magische Weise daf�r, da� trotz zuf�lliger
> Ankunft immer die S-Bahn grad weg ist. (Z.B. mit zuf�lliger
> Versp�tung - ist aber ziemlich p�nktlich.)
Hallo Hauke,
sollte das Schicksal dich nicht hassen, dann sollten deine Wartezeiten
auf die S-Bahn gleichverteilt sein im Intervall [0, 10]. (D.h.,
Mittelwert ist 5, Varianz 100/12 = 8.333...; vgl.
http://de.wikipedia.org/wiki/Stetige_Gleichverteilung.)
Der Mittelwert "hinreichend vieler" solcher Wartezeiten ist
normalverteilt (wegen dem "zentralen Grenzverteilungssatz") mit
Mittelwert 5 und Varianz (100/12)/n. (n ist dein Stichprobenumfang)
Nimm also den Mittelwert von 10 Wartezeiten. Wenn er gr��er ist als 6,5
Minuten darfst du behaupten, dass die Wartezeiten nicht den
Voraussetzungen (gleichverteilt in [0, 10]) entsprechen, und machst in
h�chstens 5% der F�lle mit dieser Aussage einen Fehler.
Wenn du 20 Wartezeiten mittelst, darf der Mittelwert in 95% der F�lle
h�chstens 6,06 Minuten betragen.
Tipp: Excel kennt die Funktion NORMINV.
=NORMINV(0,95;5;WURZEL(100/12/20)) ergibt 6,06.
>
> P.S. Es ist v�llig klar, da�, wenn ich ab morgen die
> Stichprobennahme konsequent protokolliere, die S-Bahn immer sofort
> kommen wird, da ich ansonsten gewonnen habe. Aber das ist doch
> schon mal eine Verbesserung :-)
Viel Erfolg beim Verbessern deines Schicksals.
Alfred
> Das kennt ihr bestimmt:
> Ich fahre mit dem Fahrrad zum Bahnhof. Meine Abfahrtszeit
> ist v�llig zuf�llig. (Potentieller N�rgel 1: Ich kann ohne
> Wecker auf die *Minute* genau aufstehen. Aber alle anderen
> Handlungen, Fr�hst�ck etc., sind ebenso zuf�llig.)
> Ich fahre mit ziemlich variabler Geschwindigkeit.
> (Potentieller N�rgel 2: Vielleicht sind die vielen Ampeln
> so untereinander und mit der S-Bahn synchronisiert, um mich
> aufzuhalten? Paranoia rulez :-)
> Und wenn ich dann ankomme, ist die S-Bahn (alle 10 Minuten)
> immer gerade weg. W�rde mal sagen, letzten 2 Wochen,
> ca. 15 Stichproben, ca. 12x weg.
> (Potentieller N�rgel 3&4: Stichprobe klein, Wahrnehmungsbias.)
Vielleicht ist deine Abfahrtszeit doch nicht v�llig zuf�llig. Ich k�nnte mir
vorstellen, dass sich die Schwankungen bei Waschen, Fr�hst�ck usw. im
Durchschnitt aufheben, so dass du immer mehr oder weniger zur selben Zeit
wegf�hrst.
Gr��e
Jutta
Ja, und besonders stark wird dieser Bias, wenn er nach den 5-Minuten
Nachrichten um Voll noch die Wetterprognose abwartet, bevor er zur
Bahn hechtet.
Gruss,
Rainer
> Und wenn ich dann ankomme, ist die S-Bahn (alle 10 Minuten)
> immer gerade weg. W�rde mal sagen, letzten 2 Wochen,
> ca. 15 Stichproben, ca. 12x weg.
>
Beim Lesen Deines Schicksalsberichtes kam mir der Gedanke: Was meint er mit
"gerade weg"? Bis zu wieviel Minuten hast Du das Gef�hl, die S-Bahn "gerade
so verpasst" zu haben, ab wieviel Minuten dominiert die Erkenntnis
"gr�ndlich daneben".
Bei der angenommenen Gleichverteilung Deiner Versp�tungen und der
Periodendauer von 10min f�r die S-Bahn liegt das Gef�hl der boshaften
Absicht doch ziemlich nahe, weil die Wahrscheinlichkeit das t_verpasst
<=t_SBahnVerschw�rung doch ziemlich gro� ist.
Sieh's mal anders: �rgere Dich nicht �ber die verpasste S-Bahn, sondern
freu Dich das Du die n�chste locker kriegst.
Einen sch�nen Gru� aus dem RegionalExpress G�ppingen-Esslingen, Abfahrt GP
6.49;-)
Oli
Ich bekenne mich schuldig, ein "n�herungsweise" unterschlagen zu haben.
Ansonsten guckst du hier:
http://de.wikipedia.org/wiki/Zentraler_Grenzwertsatz
>
>
> Gru� aus Bremen
> Ralf
Gru� aus Wien,
Alfred
Aus der Summe (von gleichverteilten Zufallsvariablen) schon.
Woraus besteht deiner Meinung nach ein Mittelwert?
Mach einfach einmal eine Probe. Das Tabellenkalkulationsprogramm deiner
Wahl ist dein Freund.
"=Zufallszahl()+Zufallszahl()+Zufallszahl()+Zufallszahl()+Zufallszahl()+Zufallszahl()"
in 1000 Zellen einsetzen und die Verteilung ansehen.
Du darfst auch
"=(Zufallszahl()+Zufallszahl()+Zufallszahl()+Zufallszahl()+Zufallszahl()+Zufallszahl()-3)/6"
verwenden.
>
> Der Mittelwert ist /ein/ Parameter der Verteilungsfunktion. Dadurch,
> da� sie einen hat, �ndert sie sich aber nicht. Insbesondere wird aus
> einer Gleichverteilung dadurch keine Normalverteilung.
>
Wenn du einma- zur S-Bahn gehst, ist die Wartezeit im Intervall [0, 10]
gleichverteilt. Wenn du aber sehr oft hingehst und den _Durchschnitt_ der
Wartezeiten bildest, wird der wahrscheinlich in der N�he von 5 Minuten
liegen. Es ist eher unwahrscheinlich, dass du im Durchschnitt nur 1 Minute
warten musst.
Schon die Summe (bzw. der Durchschnitt) von zwei Gleichverteilungen ist
keine Gleichverteilung mehr, sondern die Dichtefunktion hat die Form eines
Dreiecks:
/\
/ \
___/ \___
Wenn du noch mehr solche Gleichverteilungen addierst, wird die Kurve immer
"runder". Die Summe von 12 [0,1]-Gleichvertilungen ist schon eine gute
N�herung an die Standardnormalverteilung (weil die Varianz 12 ist).
Gr��e
Jutta
_Das_ allerdings kann nicht stimmen, denn der Mittelwert der Summe ist
6. Vermutlicht meinst du 12 [-0.5,+0.5]-Gleichverteilungen.
> sollte das Schicksal dich nicht hassen, dann sollten deine Wartezeiten
> auf die S-Bahn gleichverteilt sein im Intervall [0, 10]. (D.h.,
> Mittelwert ist 5, Varianz 100/12 = 8.333...; vgl.
> http://de.wikipedia.org/wiki/Stetige_Gleichverteilung.)
>
> Der Mittelwert "hinreichend vieler" solcher Wartezeiten ist
> normalverteilt (wegen dem "zentralen Grenzverteilungssatz") mit
> Mittelwert 5 und Varianz (100/12)/n. (n ist dein Stichprobenumfang)
>
> Nimm also den Mittelwert von 10 Wartezeiten. Wenn er gr��er ist als 6,5
> Minuten...
6,5 sind 1,5 Minuten *mehr* als 5 Minuten.
Und was ist, wenn der Mittelwert kleiner ist als 5-1,5 = 3,5 Minuten?
> ... darfst du behaupten, dass die Wartezeiten nicht den
> Voraussetzungen (gleichverteilt in [0, 10]) entsprechen, und machst in
> h�chstens 5% der F�lle mit dieser Aussage einen Fehler.
>
> Wenn du 20 Wartezeiten mittelst, darf der Mittelwert in 95% der F�lle
> h�chstens 6,06 Minuten betragen.
>
> Tipp: Excel kennt die Funktion NORMINV.
> =NORMINV(0,95;5;WURZEL(100/12/20)) ergibt 6,06.
Berechnet NORMINV f�r eine N(�,sigma)-verteilte Zufallsvariable X den
Wert x in der Gleichung
P(-oo < X < x) = 0,95?
Oder den Wert �+x in der Gleichung
P(�-x < X < �+x) = 0,95?
--
> Eigentlich sollte Brain 1.0 laufen.
gut, dann werde ich mir das morgen mal besorgen...
(...Dialog aus m.p.d.g.w.a.)
> Das kennt ihr bestimmt:
> Ich fahre mit dem Fahrrad zum Bahnhof. Meine Abfahrtszeit
> ist v�llig zuf�llig.
Entscheidender ist f�r die folgende Betrachtung IMHO eher die
*Ankunft*zeit am Bahnhof.
Hei�t "zuf�llig" gleichverteilt in einem bestimmten Intervall?
D.h. du wei�t z.B., da� die Ankunftzeit im Intervall
[9:15 Uhr, 9:25 Uhr]
liegt, aber die Ankunftzeiten (genauer: jeweils gleich lange
Ankunftzeit-Teilintervalle) innerhalb dieses Intervalls sind
gleichwahrscheinlich?
> Und wenn ich dann ankomme, ist die S-Bahn (alle 10 Minuten)
> immer gerade weg.
Was hei�t "immer gerade weg" in Bezug auf die eingetretenen Werte der
Zufallsvariable
X = [Zeit, die du bis zur n�chsten S-Bahn warten mu�t]?
Wenn ich das richtig verstehe, kann X alle Werte aus dem Intervall
[0,10] annehmen, und du vermutest, da� X *nicht* gleichverteilt auf
[0,10] ist.
> W�rde mal sagen, letzten 2 Wochen,
> ca. 15 Stichproben, ca. 12x weg.
Hei�t "weg" vielleicht, da� die Stichproben-Ergebnisse von X 12-mal im
z.B. Intervall [5,10] lagen?
> OK, also hier die Nullhypothese: Das Schicksal ha�t mich
> und sorgt auf magische Weise daf�r, da� trotz zuf�lliger
> Ankunft immer die S-Bahn grad weg ist.
Ich w�rd's ja eher umgekehrt formulieren.
Nullhypothese H0 (das, was eigentlich 'normal' sein sollte):
X ist gleichverteilt auf [1,10].
Alternativhypothese H1 (was du vermutest):
X ist nicht gleichverteilt auf [1,10].
Da man mit der Alternativhypothese schlecht rechnen kann (diese besagt
ja im Prinzip, da� du �ber die Verteilung von X fast �berhaupt nichts
wei�t), wird mit der Nullhypothese gerechnet.
> (Z.B. mit zuf�lliger
> Versp�tung - ist aber ziemlich p�nktlich.) Wie gro� mu� meine
> Stichprobe sein, damit man dies auf einem Standard-5%-Niveau
> testen kann?
Die Frage ist IMHO in dieser Form irgendwie unvollst�ndig; es fehlt
entweder die Angabe der Stichprobengr��e oder aber eine Art
'Entscheidungsregel' der Form
"wenn bei der Stichprobe vom Umfang n das Ereignis A eingetreten ist, so
entscheide dich f�r H1".
Wobei Ereignis A zu pr�zisieren w�re. Unter der Annahme, da� H0 gilt,
gilt in unserem Fall f�r den Erwartungswert E[X] = (0+10)/2 = 5. Seien
X_1,...,X_n die einzelnen Stichproben-Durchf�hrungen.
Dann w�ren 'Kandidaten' f�r A
A = [1/n*Summe_{k=1 bis n} X_k] weicht um mehr als x von 5 ab
oder auch
A = [1/n*Summe_{k=1 bis n} X_k] ist gr��er als ein bestimmter Wert x
Die Zufallsvariable [1/n*Summe_{k=1 bis n} X_k], der sogenannte
empirische Mittelwert deiner Stichprobe, ist - im Gegensatz zu X selber
- ann�hernd normalverteilt. Ist nun n vorgegeben, so kann man klein x
berechnen.
Damit das 5%-Niveau erreicht wird, reicht ansonsten - also wenn du weder
Stichprobengr��e noch Entscheidungsregel angibst - auch eine Stichprobe
vom Umfang 1(!).
Dein Test k�nnte ja so aussehen:
Wenn bei deinem - einzigen - Versuch X_1 aus dem Intervall [9.6, 10]
ist, entscheidest du dich f�r H1; andernfalls f�r H0. Damit gilt also
P(Entscheidung f�r H1 | obwohl H0 gilt)
= P(Entscheidung f�r H1 | X ist gleichverteilt auf [0,10])
= P(X e [9.6, 10] | X ist gleichverteilt auf [0,10])
= 0.4/10
= 0.04,
was gerade das Signifikanzniveau ist.
> P.S. Es ist v�llig klar, da�, wenn ich ab morgen die
> Stichprobennahme konsequent protokolliere,
Dann mach' mal :-) .
Der zentrale Grenzwertsatz macht in gewisser Hinsicht aus *mehreren*
Zufallsvariablen irgendeiner(!) identischen Verteilung *eine*
Zufallsvariable mit Normalverteilung.
Sei X eine gleichverteilte Zufallsvariable (hier: X Wartezeit am
Bahnhof). F�hren wir dann die Stichprobe durch, was einer Realisierung
mehrerer 'Kopien' von X (bezeichnet mit X_1,...,X_n) entspricht, so sind
nat�rlich auch X_1,...,X_n immer noch gleichverteilt, da sie ja exakt
dieselbe Verteilung wie X besitzen. Aber die Zufallsvariable
[1/n*Summe_{k=1 bis n} X_k], der empirische Mittelwert der Stichprobe
(hier: Mittelwert der n gemessenen Wartezeiten), ist nicht mehr
gleichverteilt. (Au�er vielleicht im Fall n=1.)
Ersteres.
Ist die Varianz vielleicht 1 statt 12?
Dachte ich mir.
Der Nachteil des darauf aufbauenden Testverfahrens...
"wenn der Mittelwert der gemessenen Wartezeiten am Bahnhof gr��er als
6,06 ist, entscheide dich f�r 'X ist nicht gleichverteilt', andernfalls
f�r 'X ist gleichverteilt'"
... ist, da� man sich auch dann f�r die (Null-)Hypothese 'X ist
gleichverteilt' entscheidet, wenn der gemessene Mittelwert z.B. 1 ist.
Wo man doch bei Gleichverteilung auf [0,10] eigentlich einen Wert in der
N�he von 5 vermuten w�rde.
Ja, ich war anscheinend verwirrt :-( Gus hat recht, ich meinte 12 [-0,5,
0,5]-Gleichverteilungen. Und die Varianz ist nat�rlich 12*1/12 = 1.
Gr��e
Jutta
> Der Nachteil des darauf aufbauenden Testverfahrens...
>
> "wenn der Mittelwert der gemessenen Wartezeiten am Bahnhof gr��er als 6,06
> ist, entscheide dich f�r 'X ist nicht gleichverteilt', andernfalls f�r 'X
> ist gleichverteilt'"
>
> ... ist, da� man sich auch dann f�r die (Null-)Hypothese 'X ist
> gleichverteilt' entscheidet, wenn der gemessene Mittelwert z.B. 1 ist.
> Wo man doch bei Gleichverteilung auf [0,10] eigentlich einen Wert in der
> N�he von 5 vermuten w�rde.
Hauke will ja auch einseitig testen: "Mittelwert der Wartezeit = 5" gegen
"Mittelwert der Wartezeit > 0,5". (Das w�rde dann automatisch bedeuten, dass
die Wartezeit nicht gleichverteilt sein kann.)
Gr��e
Jutta
Hallo Ralf,
ich freue mich, dass du den Unterschied zwischen Gleichverteilung und
Normalverteilung kennst. Viele Leute verwechseln das oder halten es f�r
das Gleiche.
Alles weitere lass dir bitte von deinem Mathematiklehrer erkl�ren.
Vielleicht helfen dir auch die Postings der anderen Gruppenmitglieder.
Gru�,
Alfred
Jetzt wo du's sagst - da war doch was mit Paranoia und so... ;-)
[Zitat]
...Das Schicksal ha�t mich
und sorgt auf magische Weise daf�r, da� trotz zuf�lliger
Ankunft immer die S-Bahn grad weg ist...
[/Zitat]
"Immer grad weg" = "Wartezeit > 0,5".
> Nur kommen hier nirgends mehrere vor. Wir wollen nicht wissen, wie die
> Gesamt- oder durchschnittliche Wartezeit von N Personen, die zuf�llig
> zur S-Bahn kommen, verteilt ist,
Du willst das vielleicht nicht wissen. Alfred hat vorgeschlagen, den
Mittelwert von 10 oder 20 Wartezeiten zu betrachten:
> Nimm also den Mittelwert von 10 Wartezeiten. Wenn er gr��er ist als 6,5
> Minuten darfst du behaupten, dass die Wartezeiten nicht den
> Voraussetzungen (gleichverteilt in [0, 10]) entsprechen, und machst in
> h�chstens 5% der F�lle mit dieser Aussage einen Fehler.
>
> Wenn du 20 Wartezeiten mittelst, darf der Mittelwert in 95% der F�lle
> h�chstens 6,06 Minuten betragen.
F�r den Mittelwert ist es nat�rlich egal, ob n Personen zur S-Bahn kommen
oder ob eine Person n-mal hinereinander zur S-Bahn kommt. Das �ndert
nat�rlich nichts daran, dass die einzelne Wartezeit (also wenn Hauke heute
zur S-Bahn radelt) gleichverteilt ist. Es w�re auch nicht auff�llig, wenn er
heute 9 Minuten warten muss. Aber wenn er 20-mal zur S-Bahn radelt und eine
durchschnittlicht Wartezeit von 9 Minuten feststellt, w�re das schon
auff�llig.
> sondern wie die Verteilungsfunktion
> der Einzelwartezeiten einer Person, die n-mal auf den Zug wartet,
> aussieht, und die ist h�bsch gleichverteilt, wie der �berhebliche
> Schn�sel mit seinem Excel leicht herausfinden kann.
Es ging eigentlich nicht um die Verteilungsfunktion der Einzelwartezeiten,
sondern um die Verteilungsfunktion des Durchschnitts von n
Einzelwartezeiten. Vielleicht hast du ja die Postings von Alfred nicht genau
gelesen.
Gr��e
Jutta
Wenn die Zufallsvariable X = [Wartezeit bei einem Gang zur S-Bahn]
bezeichnet, gilt nat�rlich
E[X] = 5,
falls du das meinst.
> Und wenn
> ich tausendmal gehe, ist das ganz genauso.
Es gilt in der Tat, wenn wir die Zufallsvariablen
X_1 = [Wartezeit beim 1. Gang zur S-Bahn]
.
.
.
X_1000 = [Wartezeit beim 1000. Gang zur S-Bahn]
betrachten,
E[X_1] = ... = E[X_1000] = 0.
>> Schon die Summe (bzw. der Durchschnitt) von zwei Gleichverteilungen ist
>
> hier v�llig uninteressant.
F�r dich vielleicht nicht, f�r die vom OP gestellte Frage allerdings
sehr wohl.
> Es geht nirgends um die mittlere Wartezeit,
F�r den vom OP gew�nschten statistischen Test ist die mittlere Wartezeit
sogar entscheidend.
> sondern immer um die Verteilung der /einzelnen/ Wartezeiten.
Diese 1000 einzelnen Verteilungen (die alle identisch sind) spielen
nat�rlich eine Rolle, aber die Zufallsvariable
1/1000*Summe_{n = 1 bis 1000} X_n
mit ihrer Verteilung eben auch.
>> Wenn du noch mehr solche Gleichverteilungen addierst,
>
> Hier sind nirgends Verteilungen zu addieren.
Stimmt, genaugenommen sind mehrere Zufallsvariablen mit jeweils gleicher
Verteilung zu addieren (und durch ihre Anzahl zu teilen).
> Der Erwartungswert
> betr�gt ohne jede Addition f�nf Minuten, und der ist nicht "verteilt",
Stimmt. Sowohl der Erwartungswert von X als auch der von
1/1000*Summe_{n = 1 bis 1000} X_n
sind beide 5.
> das ist h�chstens der empirische Wert der durchschnittlichen Wartezeit
> aus n-mal Warten, aber der nun wieder nicht normal-.
1/1000*Summe_{n = 1 bis 1000} X_n
ist, so wie es dasteht, eine *Zufalls*variable, welche "f�r gro�e n"
ann�hernd normalverteilt ist.
Doch, der OP f�hrt die n Zufallsversuche durch (###)
"warte auf die S-Bahn (1)"
.
.
.
"warte auf die S-Bahn (n)".
Bei jedem dieser Zufallsversuche gibt es eine Zufalls(!)variable
X_1 = Wartezeit beim 1-ten Mal
.
.
.
X_n = Wartezeit beim n-ten Mal.
Die X_1,...,X_n sind, jede f�r sich genommen, gleichverteilt.
Die n Einzelversuche mit 'ihrem' jeweiligen X_j zusammengenommen ergeben
eine sogenannte 'Stichprobe vom Umfang n'.
> Wir wollen nicht wissen, wie die
> Gesamt- oder durchschnittliche Wartezeit von N Personen, die zuf�llig
> zur S-Bahn kommen, verteilt ist, sondern wie die Verteilungsfunktion
> der Einzelwartezeiten einer Person, die n-mal auf den Zug wartet,
> aussieht,
Um eine Stichprobe vom Umfang n (bzw. N) zu erhalten, ist es egal, ob
dazu eine Person n-mal wartet oder n Personen je 1-mal warten.
> und die ist h�bsch gleichverteilt,
Die Verteilungsfunktion einer jeden Einzelwartezeit ist eine
Gleichverteilung, ja.
"Was wir wissen wollen" ist im Grunde Folgendes:
Wir gehen von der Hypothese aus (die u.U. auch falsch sein k�nnte),
*da�* X (Wartezeit) und damit die X_1,...,X_n (Wartezeiten im Rahmen der
Stichprobe) jeweils gleichverteilt sind. Diese Hypothese ist die
sogenannte Nullhypothese H0. Weiterhin gibt es eine Alternativhypothese
H1; diese w�re z.B., da� X *nicht* gleichverteilt ist.
Der OP will nun mittels eines statistischen Tests irgendwie pr�fen, ob
H0,oder aber vielleicht H1 wahr ist. Wobei er niemals 100%-ig sicher
sein kann, da� seine Entscheidung f�r H0 oder H1 aufgrund des
Testergebnisses richtig ist; es besteht immer eine M�glichkeit, bei der
Entscheidung einen Fehler zu machen. Die Wahrscheinlichkeit f�r den
Fehler, sich f�r H1 zu entscheiden, obwohl in Wahrheit H0 gilt, ist
gerade das sogenannte Signifikanzniveau.
Der OP denkt sich nun folgenden Test (dessen Ergebnis dem Zufall
unterliegt) aus, ohne den Test unmittelbar durchzuf�heren:
- Warte auf die S-Bahn, notiere Wartezeit X_1
...
- Warte auf die S-Bahn, notiere Wartezeit X_n
- Berechne M := [1/n*Summe_{k=1 bis n} X_k]
- Jetzt kommt die eigentliche �berlegung, die nicht unwesentlich auf dem
zentralen Grenzwertsatz aufbaut:
Wenn die H0 tats�chlich "wahr" ist, *wenn* also die Wartezeit X
gleichverteilt ist, so m��te dieses M mit hoher Wahrscheinlichkeit in
der N�he von 5 (dem Erwartungswert von X *und* M) landen (wegen
zentralem Grenzwertsatz).
- Auf dieser �berlegung aufbauende Entscheidungsregel: Falls M gr��er
als 6 oder kleiner als 4 ist, so entscheide ich mich f�r H1, also f�r
'die Warteit X ist *nicht* gleichverteilt'. Falls M jedoch zwischen 4
und 6 liegt, so entscheide ich mich f�r 'X ist gleichverteilt'.
Soweit der Test. Wie gesagt, bis jetzt ist der OP noch nicht einmal zur
S-Bahn gefahren :-) . Nun ist es wie oben erw�hnt m�glich, da� bei
diesem Test ein Fehler unterlaufen wird der Art
"Der OP entscheidet sich f�r 'X ist nicht gleichverteilt', obwohl X
tats�chlich gleichverteilt ist".
Man m�chte gerne die Wahrscheinlichkeit berechnen, da� beim anstehenden
Test ein derartiger Fehler passiert. In welchem Fall passiert ein
solcher Fehler? Nat�rlich genau dann, wenn, obwohl X gleichverteilt ist,
M gr��er als 4 oder kleiner als 6 ist. D.h. es gilt
P[Fehler]
= P[OP entscheidet sich f�lschlicherweise f�r H1]
= P[OP entscheidet sich f�r H1 | es gilt H0]
= P[M ist au�erhalb des Intervalls [4,6]].
Diese Wahrscheinlichkeit kann man f�r konkretes n nun ausrechnen. Ist
sie sehr klein, z.B. 1%, so kann man sagen
"Es ist so gut wie sicher, da� der OP bei Durchf�hrung eines derartigen
Tests *nicht* f�lschlicherweise zu der Annahme gelangen wird, die
Wartezeit sei nicht gleichverteilt."
Anmerkung: Das, was der OP wollte, war genaugenommen kein Test
'gleichverteilt' vs. 'nicht gleichverteilt'
sondern
'gleichverteilt' vs. 'lange Wartezeiten sind sehr wahrscheinlich'.
Die Grundideen, die beiden Tests zugrundeliegen, sind jedoch sehr �hnlich.
>> Aber die Zufallsvariable
>> [1/n*Summe_{k=1 bis n} X_k], der empirische Mittelwert der Stichprobe
>> (hier: Mittelwert der n gemessenen Wartezeiten), ist nicht mehr
>> gleichverteilt.
>
> Der interessiert nirgends.
F�r die vom OP gestellte Frage ist dieser Mittelwert (*vor* Durchf�hrung
der eigentlichen Stichprobe ist das eine Zufallsvariable) entscheidend.
Mir f�llt auf die Schnelle nichts ein, wie man da sinnvoll ohne diesen
Mittelwert auskommt.
> Wenn die mittlere Wartezeit signifikant von f�nf Minuten abweicht,
> dann liegt in der Tat keine Gleichverteilung der Wartezeiten vor, weil
> die den entsprechenden Mittelwert impliziert (von mir aus auch �ber
> den zentralen Grenzwertsatz).
Den Grenzwertsatz braucht man nicht zuletzt auch deswegen, um die
Wahrscheinlichkeit
[Zitat ich selbst]
P[Fehler]
= P[OP entscheidet sich f�lschlicherweise f�r H1]
= P[OP entscheidet sich f�r H1 | es gilt H0]
= P[M ist au�erhalb des Intervalls [4,6]]
[/Zitat ich selbst]
zu berechnen. Um P[M ist ...] berechnen zu k�nnen, mu� man ja wissen,
welche Verteilung die Zufallsvariable M hat - eben eine n�herungsweise
Normalverteilung.
> Interessant w�ren im �brigen noch h�here
> Momente der Samples - k�nnte ja auch ein Mittelwert von ca. 5 Minuten
> herauskommen, obwohl Wartezeiten zwischen 4 und 6 Minuten empirisch
> vielleicht gar nicht auftreten.
Ja, es k�nnte z.B. passieren, da� bei 10 Versuchen folgendes
Testergebnis eintritt:
X_1 = 0
X_2 = 0
X_3 = 0
X_4 = 0
X_5 = 0
X_6 = 10
X_7 = 10
X_8 = 10
X_9 = 10
X_10 = 10
F�hrt man jetzt den beschriebenen Test durch, so ist M = 5, und man
gelangt hier zur etwas merkw�rdig anmutenden Schlu�folgerung
'X ist gleichverteilt'.
Es ist bei Ansicht der Testergebnisse wohl davon auszugehen, da� man
sich damit f�lschlicherweise f�r H0 entschieden hat, obwohl vermutlich
H1 gilt. Das w�re ein sogenannter Fehler 2. Art, �ber den man AFAIK beim
genannten Test rein gar nichts(?) aussagen kann. Vermutlich k�nnte man
ihn verringern, wenn man h�here Momente (immer unter der Annahme, X sei
gleichverteilt) mit einbringt. Also nicht nur auf der �berlegung aufbauen
"Wenn X gleichverteilt ist, so m��te M mit hoher Wahrscheinlichkeit in
der N�he von 5 landen",
sondern z.B. sowas einf�gen wie
"... und weiterhin sollte die empirische Varianz der X1,...,X_n in
[passender_Bereich] liegen".
Beim oben genannten Beispiel-Testergebnis pa�t diese Varianz vermutlich
nicht mehr zur Hypothese, X sei [0,10]-gleichverteilt :-) .
Was aber bei dem genannten Test auf jeden Fall abgedeckt ist (auch ohne
Betrachtung h�herer Momente), ist, da� der Fehler 1. Art "entscheide
dich f�r H1, obwohl H0 gilt" sehr unwahrscheinlich ist. Wenn man so
will, der Test "sieht" nur den Fehler 1. Art.
Wenn du als Testgr��e das Stichprobenmittel nimmst, machst du auch nur
einen Test auf den _Mittelwert_ der zugrunde liegenden Zufallsvariablen,
nicht �ber deren Verteilungen. Nach dem zentralen Grenzwertsatz ist ja
jegliche Summe von identisch verteilten Zufallsvariablen n�herungsweise
normalverteilt, egal, welcher konkreten Verteilung (Gleich-, Normal-,
Exponential-, ... -verteilung) sie entstammen.
Um zu pr�fen, welche Verteilung vorliegt, k�nnte man, wie du
vorschl�gst, die h�heren Momente mit einbeziehen.
�blicherweise teilt man aber einfach die vermutete Verteilung in
Intervalle gleicher H�ufigkeit und pr�ft, wie gut die empirische
Verteilung mit der theoretischen Verteilung �bereinstimmt. Siehe
Chi-Quadrat-Anpassungstest oder Kolmogorov-Smirnov-Test.
http://de.wikipedia.org/wiki/Kolmogorov-Smirnov-Test
Man kann sich auch Gedanken machen, wo das Maximum und das Minimum einer
Stichprobe vom Umfang n liegen, wenn man die Verteilung der einzelnen
Zufallsvariablen kennt (oder vermutet). N�heres dazu findest du unter
dem Begriff "Ordnungsstatistik".
http://de.wikipedia.org/wiki/Ordnungsstatistik
Allerdings vermute ich, dass es den Original-Poster mehr interessiert,
wie lange er im Mittel warten muss, als wie die Wartezeit nun verteilt ist.
MfG
Alfred