Wahrscheinlichkeitsproblem - oder doch nicht?

Hauke Reddmann

unread,

Sep 22, 2009, 4:49:23 AM9/22/09

to

Das kennt ihr bestimmt:
Ich fahre mit dem Fahrrad zum Bahnhof. Meine Abfahrtszeit
ist v�llig zuf�llig. (Potentieller N�rgel 1: Ich kann ohne
Wecker auf die *Minute* genau aufstehen. Aber alle anderen
Handlungen, Fr�hst�ck etc., sind ebenso zuf�llig.)
Ich fahre mit ziemlich variabler Geschwindigkeit.
(Potentieller N�rgel 2: Vielleicht sind die vielen Ampeln
so untereinander und mit der S-Bahn synchronisiert, um mich
aufzuhalten? Paranoia rulez :-)
Und wenn ich dann ankomme, ist die S-Bahn (alle 10 Minuten)
immer gerade weg. W�rde mal sagen, letzten 2 Wochen,
ca. 15 Stichproben, ca. 12x weg.
(Potentieller N�rgel 3&4: Stichprobe klein, Wahrnehmungsbias.)

OK, also hier die Nullhypothese: Das Schicksal ha�t mich
und sorgt auf magische Weise daf�r, da� trotz zuf�lliger
Ankunft immer die S-Bahn grad weg ist. (Z.B. mit zuf�lliger
Versp�tung - ist aber ziemlich p�nktlich.) Wie gro� mu� meine
Stichprobe sein, damit man dies auf einem Standard-5%-Niveau
testen kann? (Sollte Erstsemester-Statistik-Wissen sein,
habe ich aber nicht :-)

P.S. Es ist v�llig klar, da�, wenn ich ab morgen die
Stichprobennahme konsequent protokolliere, die S-Bahn immer sofort
kommen wird, da ich ansonsten gewonnen habe. Aber das ist doch
schon mal eine Verbesserung :-)
--
Hauke Reddmann <:-EX8 fc3...@uni-hamburg.de
Nur Schufte schuften - Genie genie�t.

Alfred Heiligenbrunner

unread,

Sep 22, 2009, 11:56:21 PM9/22/09

to

Hauke Reddmann schrieb am 22.09.2009 10:49:
> Ich fahre mit dem Fahrrad zum Bahnhof. Meine Abfahrtszeit
> ist v�llig zuf�llig.

> Und wenn ich dann ankomme, ist die S-Bahn (alle 10 Minuten)

> immer gerade weg. W�rde mal sagen, letzten 2 Wochen,
> ca. 15 Stichproben, ca. 12x weg.
> (Potentieller N�rgel 3&4: Stichprobe klein, Wahrnehmungsbias.)
>
> OK, also hier die Nullhypothese: Das Schicksal ha�t mich
> und sorgt auf magische Weise daf�r, da� trotz zuf�lliger
> Ankunft immer die S-Bahn grad weg ist. (Z.B. mit zuf�lliger
> Versp�tung - ist aber ziemlich p�nktlich.)

Hallo Hauke,

sollte das Schicksal dich nicht hassen, dann sollten deine Wartezeiten
auf die S-Bahn gleichverteilt sein im Intervall [0, 10]. (D.h.,
Mittelwert ist 5, Varianz 100/12 = 8.333...; vgl.
http://de.wikipedia.org/wiki/Stetige_Gleichverteilung.)

Der Mittelwert "hinreichend vieler" solcher Wartezeiten ist
normalverteilt (wegen dem "zentralen Grenzverteilungssatz") mit
Mittelwert 5 und Varianz (100/12)/n. (n ist dein Stichprobenumfang)

Nimm also den Mittelwert von 10 Wartezeiten. Wenn er gr��er ist als 6,5
Minuten darfst du behaupten, dass die Wartezeiten nicht den
Voraussetzungen (gleichverteilt in [0, 10]) entsprechen, und machst in
h�chstens 5% der F�lle mit dieser Aussage einen Fehler.

Wenn du 20 Wartezeiten mittelst, darf der Mittelwert in 95% der F�lle
h�chstens 6,06 Minuten betragen.

Tipp: Excel kennt die Funktion NORMINV.
=NORMINV(0,95;5;WURZEL(100/12/20)) ergibt 6,06.

>
> P.S. Es ist v�llig klar, da�, wenn ich ab morgen die
> Stichprobennahme konsequent protokolliere, die S-Bahn immer sofort
> kommen wird, da ich ansonsten gewonnen habe. Aber das ist doch
> schon mal eine Verbesserung :-)

Viel Erfolg beim Verbessern deines Schicksals.
Alfred

Jutta Gut

unread,

Sep 23, 2009, 1:58:32 AM9/23/09

to

"Hauke Reddmann" <fc3...@uni-hamburg.de> schrieb

> Das kennt ihr bestimmt:
> Ich fahre mit dem Fahrrad zum Bahnhof. Meine Abfahrtszeit
> ist v�llig zuf�llig. (Potentieller N�rgel 1: Ich kann ohne
> Wecker auf die *Minute* genau aufstehen. Aber alle anderen
> Handlungen, Fr�hst�ck etc., sind ebenso zuf�llig.)
> Ich fahre mit ziemlich variabler Geschwindigkeit.
> (Potentieller N�rgel 2: Vielleicht sind die vielen Ampeln
> so untereinander und mit der S-Bahn synchronisiert, um mich
> aufzuhalten? Paranoia rulez :-)
> Und wenn ich dann ankomme, ist die S-Bahn (alle 10 Minuten)
> immer gerade weg. W�rde mal sagen, letzten 2 Wochen,
> ca. 15 Stichproben, ca. 12x weg.
> (Potentieller N�rgel 3&4: Stichprobe klein, Wahrnehmungsbias.)

Vielleicht ist deine Abfahrtszeit doch nicht v�llig zuf�llig. Ich k�nnte mir
vorstellen, dass sich die Schwankungen bei Waschen, Fr�hst�ck usw. im
Durchschnitt aufheben, so dass du immer mehr oder weniger zur selben Zeit
wegf�hrst.

Gr��e
Jutta

Rainer Rosenthal

unread,

Sep 23, 2009, 2:06:22 AM9/23/09

to

> Vielleicht ist deine Abfahrtszeit doch nicht vï¿œllig zufï¿œllig. Ich kï¿œnnte mir
> vorstellen, dass sich die Schwankungen bei Waschen, Frï¿œhstï¿œck usw. im

> Durchschnitt aufheben, so dass du immer mehr oder weniger zur selben Zeit

> wegfï¿œhrst.

Ja, und besonders stark wird dieser Bias, wenn er nach den 5-Minuten
Nachrichten um Voll noch die Wetterprognose abwartet, bevor er zur
Bahn hechtet.

Gruss,
Rainer

Oliver

unread,

Sep 23, 2009, 2:43:49 AM9/23/09

to

Hauke Reddmann <fc3...@uni-hamburg.de> wrote in news:7hrhcjF2ulidjU1
@mid.dfncis.de:

> Und wenn ich dann ankomme, ist die S-Bahn (alle 10 Minuten)
> immer gerade weg. W�rde mal sagen, letzten 2 Wochen,
> ca. 15 Stichproben, ca. 12x weg.
>

Beim Lesen Deines Schicksalsberichtes kam mir der Gedanke: Was meint er mit
"gerade weg"? Bis zu wieviel Minuten hast Du das Gef�hl, die S-Bahn "gerade
so verpasst" zu haben, ab wieviel Minuten dominiert die Erkenntnis
"gr�ndlich daneben".
Bei der angenommenen Gleichverteilung Deiner Versp�tungen und der
Periodendauer von 10min f�r die S-Bahn liegt das Gef�hl der boshaften
Absicht doch ziemlich nahe, weil die Wahrscheinlichkeit das t_verpasst
<=t_SBahnVerschw�rung doch ziemlich gro� ist.

Sieh's mal anders: �rgere Dich nicht �ber die verpasste S-Bahn, sondern
freu Dich das Du die n�chste locker kriegst.

Einen sch�nen Gru� aus dem RegionalExpress G�ppingen-Esslingen, Abfahrt GP
6.49;-)

Oli

Message has been deleted

Alfred Heiligenbrunner

unread,

Sep 23, 2009, 2:37:09 PM9/23/09

to

Ralf . K u s m i e r z schrieb am 23.09.2009 16:30:
> X-No-Archive: Yes
>
> begin quoting, Alfred Heiligenbrunner schrieb:

>
>> Der Mittelwert "hinreichend vieler" solcher Wartezeiten ist
>> normalverteilt (wegen dem "zentralen Grenzverteilungssatz") mit
>> Mittelwert 5 und Varianz (100/12)/n. (n ist dein Stichprobenumfang)
>

> Das kann gar nicht sein, weil die Wartezeit null nicht unter- und zehn
> nicht �berschreiten kann - ich w�rde auf "gleichverteilt" tippen.

Ich bekenne mich schuldig, ein "n�herungsweise" unterschlagen zu haben.

Ansonsten guckst du hier:
http://de.wikipedia.org/wiki/Zentraler_Grenzwertsatz

>
>
> Gru� aus Bremen
> Ralf

Gru� aus Wien,
Alfred

Message has been deleted

Alfred Heiligenbrunner

unread,

Sep 23, 2009, 4:05:15 PM9/23/09

to

Ralf . K u s m i e r z schrieb am 23.09.2009 21:57:
> X-No-Archive: Yes
>
> begin quoting, Alfred Heiligenbrunner schrieb:
>

>>> Das kann gar nicht sein, weil die Wartezeit null nicht unter- und zehn
>>> nicht �berschreiten kann - ich w�rde auf "gleichverteilt" tippen.
>> Ich bekenne mich schuldig, ein "n�herungsweise" unterschlagen zu haben.
>> Ansonsten guckst du hier:
>> http://de.wikipedia.org/wiki/Zentraler_Grenzwertsatz
>

> Der macht aus einer Gleichverteilung auch keine Normalverteilung.

Aus der Summe (von gleichverteilten Zufallsvariablen) schon.

Message has been deleted

Alfred Heiligenbrunner

unread,

Sep 24, 2009, 12:00:11 AM9/24/09

to

> Hier geht es aber nicht um Summen.

Woraus besteht deiner Meinung nach ein Mittelwert?

Mach einfach einmal eine Probe. Das Tabellenkalkulationsprogramm deiner
Wahl ist dein Freund.

"=Zufallszahl()+Zufallszahl()+Zufallszahl()+Zufallszahl()+Zufallszahl()+Zufallszahl()"
in 1000 Zellen einsetzen und die Verteilung ansehen.

Du darfst auch
"=(Zufallszahl()+Zufallszahl()+Zufallszahl()+Zufallszahl()+Zufallszahl()+Zufallszahl()-3)/6"
verwenden.

Message has been deleted

Jutta Gut

unread,

Sep 24, 2009, 10:27:44 AM9/24/09

to

"Ralf . K u s m i e r z" <m...@privacy.invalid> schrieb

>
> Der Mittelwert ist /ein/ Parameter der Verteilungsfunktion. Dadurch,
> da� sie einen hat, �ndert sie sich aber nicht. Insbesondere wird aus
> einer Gleichverteilung dadurch keine Normalverteilung.
>

Wenn du einma- zur S-Bahn gehst, ist die Wartezeit im Intervall [0, 10]
gleichverteilt. Wenn du aber sehr oft hingehst und den _Durchschnitt_ der
Wartezeiten bildest, wird der wahrscheinlich in der N�he von 5 Minuten
liegen. Es ist eher unwahrscheinlich, dass du im Durchschnitt nur 1 Minute
warten musst.

Schon die Summe (bzw. der Durchschnitt) von zwei Gleichverteilungen ist
keine Gleichverteilung mehr, sondern die Dichtefunktion hat die Form eines
Dreiecks:
/\
/ \
___/ \___

Wenn du noch mehr solche Gleichverteilungen addierst, wird die Kurve immer
"runder". Die Summe von 12 [0,1]-Gleichvertilungen ist schon eine gute
N�herung an die Standardnormalverteilung (weil die Varianz 12 ist).

Gr��e
Jutta

Gus Gassmann

unread,

Sep 24, 2009, 11:18:01 AM9/24/09

to

_Das_ allerdings kann nicht stimmen, denn der Mittelwert der Summe ist
6. Vermutlicht meinst du 12 [-0.5,+0.5]-Gleichverteilungen.

Stephan Gerlach

unread,

Sep 24, 2009, 11:55:04 AM9/24/09

to

Alfred Heiligenbrunner schrieb:

> sollte das Schicksal dich nicht hassen, dann sollten deine Wartezeiten
> auf die S-Bahn gleichverteilt sein im Intervall [0, 10]. (D.h.,
> Mittelwert ist 5, Varianz 100/12 = 8.333...; vgl.
> http://de.wikipedia.org/wiki/Stetige_Gleichverteilung.)
>
> Der Mittelwert "hinreichend vieler" solcher Wartezeiten ist
> normalverteilt (wegen dem "zentralen Grenzverteilungssatz") mit
> Mittelwert 5 und Varianz (100/12)/n. (n ist dein Stichprobenumfang)
>
> Nimm also den Mittelwert von 10 Wartezeiten. Wenn er gr��er ist als 6,5

> Minuten...

6,5 sind 1,5 Minuten *mehr* als 5 Minuten.
Und was ist, wenn der Mittelwert kleiner ist als 5-1,5 = 3,5 Minuten?

> ... darfst du behaupten, dass die Wartezeiten nicht den

> Voraussetzungen (gleichverteilt in [0, 10]) entsprechen, und machst in
> h�chstens 5% der F�lle mit dieser Aussage einen Fehler.
>
> Wenn du 20 Wartezeiten mittelst, darf der Mittelwert in 95% der F�lle
> h�chstens 6,06 Minuten betragen.
>
> Tipp: Excel kennt die Funktion NORMINV.
> =NORMINV(0,95;5;WURZEL(100/12/20)) ergibt 6,06.

Berechnet NORMINV f�r eine N(�,sigma)-verteilte Zufallsvariable X den
Wert x in der Gleichung
P(-oo < X < x) = 0,95?

Oder den Wert �+x in der Gleichung
P(�-x < X < �+x) = 0,95?

--
> Eigentlich sollte Brain 1.0 laufen.
gut, dann werde ich mir das morgen mal besorgen...
(...Dialog aus m.p.d.g.w.a.)

Stephan Gerlach

unread,

Sep 24, 2009, 12:08:28 PM9/24/09

to

Hauke Reddmann schrieb:

> Das kennt ihr bestimmt:
> Ich fahre mit dem Fahrrad zum Bahnhof. Meine Abfahrtszeit
> ist v�llig zuf�llig.

Entscheidender ist f�r die folgende Betrachtung IMHO eher die
*Ankunft*zeit am Bahnhof.

Hei�t "zuf�llig" gleichverteilt in einem bestimmten Intervall?
D.h. du wei�t z.B., da� die Ankunftzeit im Intervall
[9:15 Uhr, 9:25 Uhr]
liegt, aber die Ankunftzeiten (genauer: jeweils gleich lange
Ankunftzeit-Teilintervalle) innerhalb dieses Intervalls sind
gleichwahrscheinlich?

> Und wenn ich dann ankomme, ist die S-Bahn (alle 10 Minuten)
> immer gerade weg.

Was hei�t "immer gerade weg" in Bezug auf die eingetretenen Werte der
Zufallsvariable

X = [Zeit, die du bis zur n�chsten S-Bahn warten mu�t]?

Wenn ich das richtig verstehe, kann X alle Werte aus dem Intervall
[0,10] annehmen, und du vermutest, da� X *nicht* gleichverteilt auf
[0,10] ist.

> W�rde mal sagen, letzten 2 Wochen,
> ca. 15 Stichproben, ca. 12x weg.

Hei�t "weg" vielleicht, da� die Stichproben-Ergebnisse von X 12-mal im
z.B. Intervall [5,10] lagen?

> OK, also hier die Nullhypothese: Das Schicksal ha�t mich
> und sorgt auf magische Weise daf�r, da� trotz zuf�lliger
> Ankunft immer die S-Bahn grad weg ist.

Ich w�rd's ja eher umgekehrt formulieren.
Nullhypothese H0 (das, was eigentlich 'normal' sein sollte):
X ist gleichverteilt auf [1,10].
Alternativhypothese H1 (was du vermutest):
X ist nicht gleichverteilt auf [1,10].

Da man mit der Alternativhypothese schlecht rechnen kann (diese besagt
ja im Prinzip, da� du �ber die Verteilung von X fast �berhaupt nichts
wei�t), wird mit der Nullhypothese gerechnet.

> (Z.B. mit zuf�lliger
> Versp�tung - ist aber ziemlich p�nktlich.) Wie gro� mu� meine
> Stichprobe sein, damit man dies auf einem Standard-5%-Niveau
> testen kann?

Die Frage ist IMHO in dieser Form irgendwie unvollst�ndig; es fehlt
entweder die Angabe der Stichprobengr��e oder aber eine Art
'Entscheidungsregel' der Form
"wenn bei der Stichprobe vom Umfang n das Ereignis A eingetreten ist, so
entscheide dich f�r H1".
Wobei Ereignis A zu pr�zisieren w�re. Unter der Annahme, da� H0 gilt,
gilt in unserem Fall f�r den Erwartungswert E[X] = (0+10)/2 = 5. Seien
X_1,...,X_n die einzelnen Stichproben-Durchf�hrungen.
Dann w�ren 'Kandidaten' f�r A
A = [1/n*Summe_{k=1 bis n} X_k] weicht um mehr als x von 5 ab
oder auch
A = [1/n*Summe_{k=1 bis n} X_k] ist gr��er als ein bestimmter Wert x
Die Zufallsvariable [1/n*Summe_{k=1 bis n} X_k], der sogenannte
empirische Mittelwert deiner Stichprobe, ist - im Gegensatz zu X selber
- ann�hernd normalverteilt. Ist nun n vorgegeben, so kann man klein x
berechnen.

Damit das 5%-Niveau erreicht wird, reicht ansonsten - also wenn du weder
Stichprobengr��e noch Entscheidungsregel angibst - auch eine Stichprobe
vom Umfang 1(!).

Dein Test k�nnte ja so aussehen:
Wenn bei deinem - einzigen - Versuch X_1 aus dem Intervall [9.6, 10]
ist, entscheidest du dich f�r H1; andernfalls f�r H0. Damit gilt also
P(Entscheidung f�r H1 | obwohl H0 gilt)
= P(Entscheidung f�r H1 | X ist gleichverteilt auf [0,10])
= P(X e [9.6, 10] | X ist gleichverteilt auf [0,10])
= 0.4/10
= 0.04,
was gerade das Signifikanzniveau ist.

> P.S. Es ist v�llig klar, da�, wenn ich ab morgen die
> Stichprobennahme konsequent protokolliere,

Dann mach' mal :-) .

Stephan Gerlach

unread,

Sep 24, 2009, 12:17:01 PM9/24/09

to

Ralf . K u s m i e r z schrieb:

> X-No-Archive: Yes
>
> begin quoting, Alfred Heiligenbrunner schrieb:
>

>>> Das kann gar nicht sein, weil die Wartezeit null nicht unter- und zehn
>>> nicht �berschreiten kann - ich w�rde auf "gleichverteilt" tippen.
>> Ich bekenne mich schuldig, ein "n�herungsweise" unterschlagen zu haben.
>> Ansonsten guckst du hier:
>> http://de.wikipedia.org/wiki/Zentraler_Grenzwertsatz
>

> Der macht aus einer Gleichverteilung auch keine Normalverteilung.

Der zentrale Grenzwertsatz macht in gewisser Hinsicht aus *mehreren*
Zufallsvariablen irgendeiner(!) identischen Verteilung *eine*
Zufallsvariable mit Normalverteilung.

Sei X eine gleichverteilte Zufallsvariable (hier: X Wartezeit am
Bahnhof). F�hren wir dann die Stichprobe durch, was einer Realisierung
mehrerer 'Kopien' von X (bezeichnet mit X_1,...,X_n) entspricht, so sind
nat�rlich auch X_1,...,X_n immer noch gleichverteilt, da sie ja exakt
dieselbe Verteilung wie X besitzen. Aber die Zufallsvariable
[1/n*Summe_{k=1 bis n} X_k], der empirische Mittelwert der Stichprobe
(hier: Mittelwert der n gemessenen Wartezeiten), ist nicht mehr
gleichverteilt. (Au�er vielleicht im Fall n=1.)

Gus Gassmann

unread,

Sep 24, 2009, 12:29:37 PM9/24/09

to

On Sep 24, 12:55 pm, Stephan Gerlach <mam99...@studserv.uni-
leipzig.de> wrote:
> Alfred Heiligenbrunner schrieb:

>
> > Tipp: Excel kennt die Funktion NORMINV.
> > =NORMINV(0,95;5;WURZEL(100/12/20)) ergibt 6,06.
>

> Berechnet NORMINV für eine N(µ,sigma)-verteilte Zufallsvariable X den

> Wert x in der Gleichung
> P(-oo < X < x) = 0,95?
>

> Oder den Wert µ+x in der Gleichung
> P(µ-x < X < µ+x) = 0,95?

Ersteres.

Stephan Gerlach

unread,

Sep 24, 2009, 12:34:21 PM9/24/09

to

Jutta Gut schrieb:

>
> Die Summe von 12 [0,1]-Gleichvertilungen ist schon eine
> gute N�herung an die Standardnormalverteilung (weil die Varianz 12 ist).

Ist die Varianz vielleicht 1 statt 12?

Stephan Gerlach

unread,

Sep 24, 2009, 1:33:49 PM9/24/09

to

Gus Gassmann schrieb:

> On Sep 24, 12:55 pm, Stephan Gerlach <mam99...@studserv.uni-
> leipzig.de> wrote:
>> Alfred Heiligenbrunner schrieb:
>>
>>> Tipp: Excel kennt die Funktion NORMINV.
>>> =NORMINV(0,95;5;WURZEL(100/12/20)) ergibt 6,06.

>> Berechnet NORMINV f�r eine N(�,sigma)-verteilte Zufallsvariable X den

>> Wert x in der Gleichung
>> P(-oo < X < x) = 0,95?
>>

>> Oder den Wert �+x in der Gleichung
>> P(�-x < X < �+x) = 0,95?
>

> Ersteres.

Dachte ich mir.
Der Nachteil des darauf aufbauenden Testverfahrens...

"wenn der Mittelwert der gemessenen Wartezeiten am Bahnhof gr��er als
6,06 ist, entscheide dich f�r 'X ist nicht gleichverteilt', andernfalls
f�r 'X ist gleichverteilt'"

... ist, da� man sich auch dann f�r die (Null-)Hypothese 'X ist
gleichverteilt' entscheidet, wenn der gemessene Mittelwert z.B. 1 ist.
Wo man doch bei Gleichverteilung auf [0,10] eigentlich einen Wert in der
N�he von 5 vermuten w�rde.

Jutta Gut

unread,

Sep 24, 2009, 2:10:40 PM9/24/09

to

"Stephan Gerlach" <mam9...@studserv.uni-leipzig.de> schrieb

> Jutta Gut schrieb:
>>
>> Die Summe von 12 [0,1]-Gleichvertilungen ist schon eine gute N�herung an
>> die Standardnormalverteilung (weil die Varianz 12 ist).
>
> Ist die Varianz vielleicht 1 statt 12?
>

Ja, ich war anscheinend verwirrt :-( Gus hat recht, ich meinte 12 [-0,5,
0,5]-Gleichverteilungen. Und die Varianz ist nat�rlich 12*1/12 = 1.

Gr��e
Jutta

Jutta Gut

unread,

Sep 24, 2009, 2:13:58 PM9/24/09

to

"Stephan Gerlach" <mam9...@studserv.uni-leipzig.de> schrieb

> Der Nachteil des darauf aufbauenden Testverfahrens...
>
> "wenn der Mittelwert der gemessenen Wartezeiten am Bahnhof gr��er als 6,06
> ist, entscheide dich f�r 'X ist nicht gleichverteilt', andernfalls f�r 'X
> ist gleichverteilt'"
>
> ... ist, da� man sich auch dann f�r die (Null-)Hypothese 'X ist
> gleichverteilt' entscheidet, wenn der gemessene Mittelwert z.B. 1 ist.
> Wo man doch bei Gleichverteilung auf [0,10] eigentlich einen Wert in der
> N�he von 5 vermuten w�rde.

Hauke will ja auch einseitig testen: "Mittelwert der Wartezeit = 5" gegen
"Mittelwert der Wartezeit > 0,5". (Das w�rde dann automatisch bedeuten, dass
die Wartezeit nicht gleichverteilt sein kann.)

Gr��e
Jutta

Alfred Heiligenbrunner

unread,

Sep 24, 2009, 2:54:49 PM9/24/09

to

Ralf . K u s m i e r z schrieb am 24.09.2009 14:58:
> Insbesondere wird aus
> einer Gleichverteilung dadurch keine Normalverteilung.

Hallo Ralf,

ich freue mich, dass du den Unterschied zwischen Gleichverteilung und
Normalverteilung kennst. Viele Leute verwechseln das oder halten es f�r
das Gleiche.
Alles weitere lass dir bitte von deinem Mathematiklehrer erkl�ren.
Vielleicht helfen dir auch die Postings der anderen Gruppenmitglieder.

Gru�,
Alfred

Stephan Gerlach

unread,

Sep 24, 2009, 7:31:59 PM9/24/09

to

Jutta Gut schrieb:

>
> "Stephan Gerlach" <mam9...@studserv.uni-leipzig.de> schrieb
>
>> Der Nachteil des darauf aufbauenden Testverfahrens...
>>
>> "wenn der Mittelwert der gemessenen Wartezeiten am Bahnhof gr��er als
>> 6,06 ist, entscheide dich f�r 'X ist nicht gleichverteilt',
>> andernfalls f�r 'X ist gleichverteilt'"
>>
>> ... ist, da� man sich auch dann f�r die (Null-)Hypothese 'X ist
>> gleichverteilt' entscheidet, wenn der gemessene Mittelwert z.B. 1 ist.
>> Wo man doch bei Gleichverteilung auf [0,10] eigentlich einen Wert in
>> der N�he von 5 vermuten w�rde.
>
> Hauke will ja auch einseitig testen: "Mittelwert der Wartezeit = 5"
> gegen "Mittelwert der Wartezeit > 0,5".

Jetzt wo du's sagst - da war doch was mit Paranoia und so... ;-)

[Zitat]
...Das Schicksal ha�t mich

und sorgt auf magische Weise daf�r, da� trotz zuf�lliger

Ankunft immer die S-Bahn grad weg ist...
[/Zitat]

"Immer grad weg" = "Wartezeit > 0,5".

Message has been deleted

Jutta Gut

unread,

Sep 25, 2009, 1:56:51 AM9/25/09

to

"Ralf . K u s m i e r z" <m...@privacy.invalid> schrieb

> Nur kommen hier nirgends mehrere vor. Wir wollen nicht wissen, wie die
> Gesamt- oder durchschnittliche Wartezeit von N Personen, die zuf�llig
> zur S-Bahn kommen, verteilt ist,

Du willst das vielleicht nicht wissen. Alfred hat vorgeschlagen, den
Mittelwert von 10 oder 20 Wartezeiten zu betrachten:

> Nimm also den Mittelwert von 10 Wartezeiten. Wenn er gr��er ist als 6,5

> Minuten darfst du behaupten, dass die Wartezeiten nicht den

> Voraussetzungen (gleichverteilt in [0, 10]) entsprechen, und machst in
> h�chstens 5% der F�lle mit dieser Aussage einen Fehler.
>
> Wenn du 20 Wartezeiten mittelst, darf der Mittelwert in 95% der F�lle
> h�chstens 6,06 Minuten betragen.

F�r den Mittelwert ist es nat�rlich egal, ob n Personen zur S-Bahn kommen
oder ob eine Person n-mal hinereinander zur S-Bahn kommt. Das �ndert
nat�rlich nichts daran, dass die einzelne Wartezeit (also wenn Hauke heute
zur S-Bahn radelt) gleichverteilt ist. Es w�re auch nicht auff�llig, wenn er
heute 9 Minuten warten muss. Aber wenn er 20-mal zur S-Bahn radelt und eine
durchschnittlicht Wartezeit von 9 Minuten feststellt, w�re das schon
auff�llig.

> sondern wie die Verteilungsfunktion
> der Einzelwartezeiten einer Person, die n-mal auf den Zug wartet,
> aussieht, und die ist h�bsch gleichverteilt, wie der �berhebliche
> Schn�sel mit seinem Excel leicht herausfinden kann.

Es ging eigentlich nicht um die Verteilungsfunktion der Einzelwartezeiten,
sondern um die Verteilungsfunktion des Durchschnitts von n
Einzelwartezeiten. Vielleicht hast du ja die Postings von Alfred nicht genau
gelesen.

Gr��e
Jutta

Stephan Gerlach

unread,

Sep 25, 2009, 6:09:15 PM9/25/09

to

Ralf . K u s m i e r z schrieb:
> X-No-Archive: Yes
>

> begin quoting, Jutta Gut schrieb:

>
>>> Der Mittelwert ist /ein/ Parameter der Verteilungsfunktion. Dadurch,
>>> da� sie einen hat, �ndert sie sich aber nicht. Insbesondere wird aus
>>> einer Gleichverteilung dadurch keine Normalverteilung.

>> Wenn du einmal zur S-Bahn gehst, ist die Wartezeit im Intervall [0, 10]
>> gleichverteilt.
>
> und betr�gt als Mittelwert der Verteilungsfunktion 5 Minuten.

Wenn die Zufallsvariable X = [Wartezeit bei einem Gang zur S-Bahn]
bezeichnet, gilt nat�rlich
E[X] = 5,
falls du das meinst.

> Und wenn
> ich tausendmal gehe, ist das ganz genauso.

Es gilt in der Tat, wenn wir die Zufallsvariablen
X_1 = [Wartezeit beim 1. Gang zur S-Bahn]
.
.
.
X_1000 = [Wartezeit beim 1000. Gang zur S-Bahn]
betrachten,
E[X_1] = ... = E[X_1000] = 0.

>> Schon die Summe (bzw. der Durchschnitt) von zwei Gleichverteilungen ist
>

> hier v�llig uninteressant.

F�r dich vielleicht nicht, f�r die vom OP gestellte Frage allerdings
sehr wohl.

> Es geht nirgends um die mittlere Wartezeit,

F�r den vom OP gew�nschten statistischen Test ist die mittlere Wartezeit
sogar entscheidend.

> sondern immer um die Verteilung der /einzelnen/ Wartezeiten.

Diese 1000 einzelnen Verteilungen (die alle identisch sind) spielen
nat�rlich eine Rolle, aber die Zufallsvariable
1/1000*Summe_{n = 1 bis 1000} X_n
mit ihrer Verteilung eben auch.

>> Wenn du noch mehr solche Gleichverteilungen addierst,
>

> Hier sind nirgends Verteilungen zu addieren.

Stimmt, genaugenommen sind mehrere Zufallsvariablen mit jeweils gleicher
Verteilung zu addieren (und durch ihre Anzahl zu teilen).

> Der Erwartungswert
> betr�gt ohne jede Addition f�nf Minuten, und der ist nicht "verteilt",

Stimmt. Sowohl der Erwartungswert von X als auch der von
1/1000*Summe_{n = 1 bis 1000} X_n
sind beide 5.

> das ist h�chstens der empirische Wert der durchschnittlichen Wartezeit
> aus n-mal Warten, aber der nun wieder nicht normal-.

1/1000*Summe_{n = 1 bis 1000} X_n
ist, so wie es dasteht, eine *Zufalls*variable, welche "f�r gro�e n"
ann�hernd normalverteilt ist.

Stephan Gerlach

unread,

Sep 25, 2009, 7:29:30 PM9/25/09

to

Ralf . K u s m i e r z schrieb:
> X-No-Archive: Yes
>

> begin quoting, Stephan Gerlach schrieb:

>
>>>>> Das kann gar nicht sein, weil die Wartezeit null nicht unter- und zehn
>>>>> nicht �berschreiten kann - ich w�rde auf "gleichverteilt" tippen.
>>>> Ich bekenne mich schuldig, ein "n�herungsweise" unterschlagen zu haben.
>>>> Ansonsten guckst du hier:
>>>> http://de.wikipedia.org/wiki/Zentraler_Grenzwertsatz
>>> Der macht aus einer Gleichverteilung auch keine Normalverteilung.
>> Der zentrale Grenzwertsatz macht in gewisser Hinsicht aus *mehreren*
>> Zufallsvariablen irgendeiner(!) identischen Verteilung *eine*
>> Zufallsvariable mit Normalverteilung.
>

> Nur kommen hier nirgends mehrere vor.

Doch, der OP f�hrt die n Zufallsversuche durch (###)
"warte auf die S-Bahn (1)"
.
.
.
"warte auf die S-Bahn (n)".
Bei jedem dieser Zufallsversuche gibt es eine Zufalls(!)variable
X_1 = Wartezeit beim 1-ten Mal
.
.
.
X_n = Wartezeit beim n-ten Mal.
Die X_1,...,X_n sind, jede f�r sich genommen, gleichverteilt.
Die n Einzelversuche mit 'ihrem' jeweiligen X_j zusammengenommen ergeben
eine sogenannte 'Stichprobe vom Umfang n'.

> Wir wollen nicht wissen, wie die
> Gesamt- oder durchschnittliche Wartezeit von N Personen, die zuf�llig

> zur S-Bahn kommen, verteilt ist, sondern wie die Verteilungsfunktion

> der Einzelwartezeiten einer Person, die n-mal auf den Zug wartet,
> aussieht,

Um eine Stichprobe vom Umfang n (bzw. N) zu erhalten, ist es egal, ob
dazu eine Person n-mal wartet oder n Personen je 1-mal warten.

> und die ist h�bsch gleichverteilt,

Die Verteilungsfunktion einer jeden Einzelwartezeit ist eine
Gleichverteilung, ja.

"Was wir wissen wollen" ist im Grunde Folgendes:
Wir gehen von der Hypothese aus (die u.U. auch falsch sein k�nnte),
*da�* X (Wartezeit) und damit die X_1,...,X_n (Wartezeiten im Rahmen der
Stichprobe) jeweils gleichverteilt sind. Diese Hypothese ist die
sogenannte Nullhypothese H0. Weiterhin gibt es eine Alternativhypothese
H1; diese w�re z.B., da� X *nicht* gleichverteilt ist.
Der OP will nun mittels eines statistischen Tests irgendwie pr�fen, ob
H0,oder aber vielleicht H1 wahr ist. Wobei er niemals 100%-ig sicher
sein kann, da� seine Entscheidung f�r H0 oder H1 aufgrund des
Testergebnisses richtig ist; es besteht immer eine M�glichkeit, bei der
Entscheidung einen Fehler zu machen. Die Wahrscheinlichkeit f�r den
Fehler, sich f�r H1 zu entscheiden, obwohl in Wahrheit H0 gilt, ist
gerade das sogenannte Signifikanzniveau.
Der OP denkt sich nun folgenden Test (dessen Ergebnis dem Zufall
unterliegt) aus, ohne den Test unmittelbar durchzuf�heren:

- Warte auf die S-Bahn, notiere Wartezeit X_1
...
- Warte auf die S-Bahn, notiere Wartezeit X_n
- Berechne M := [1/n*Summe_{k=1 bis n} X_k]

- Jetzt kommt die eigentliche �berlegung, die nicht unwesentlich auf dem
zentralen Grenzwertsatz aufbaut:
Wenn die H0 tats�chlich "wahr" ist, *wenn* also die Wartezeit X
gleichverteilt ist, so m��te dieses M mit hoher Wahrscheinlichkeit in
der N�he von 5 (dem Erwartungswert von X *und* M) landen (wegen
zentralem Grenzwertsatz).

- Auf dieser �berlegung aufbauende Entscheidungsregel: Falls M gr��er
als 6 oder kleiner als 4 ist, so entscheide ich mich f�r H1, also f�r
'die Warteit X ist *nicht* gleichverteilt'. Falls M jedoch zwischen 4
und 6 liegt, so entscheide ich mich f�r 'X ist gleichverteilt'.

Soweit der Test. Wie gesagt, bis jetzt ist der OP noch nicht einmal zur
S-Bahn gefahren :-) . Nun ist es wie oben erw�hnt m�glich, da� bei
diesem Test ein Fehler unterlaufen wird der Art
"Der OP entscheidet sich f�r 'X ist nicht gleichverteilt', obwohl X
tats�chlich gleichverteilt ist".
Man m�chte gerne die Wahrscheinlichkeit berechnen, da� beim anstehenden
Test ein derartiger Fehler passiert. In welchem Fall passiert ein
solcher Fehler? Nat�rlich genau dann, wenn, obwohl X gleichverteilt ist,
M gr��er als 4 oder kleiner als 6 ist. D.h. es gilt
P[Fehler]
= P[OP entscheidet sich f�lschlicherweise f�r H1]
= P[OP entscheidet sich f�r H1 | es gilt H0]
= P[M ist au�erhalb des Intervalls [4,6]].
Diese Wahrscheinlichkeit kann man f�r konkretes n nun ausrechnen. Ist
sie sehr klein, z.B. 1%, so kann man sagen

"Es ist so gut wie sicher, da� der OP bei Durchf�hrung eines derartigen
Tests *nicht* f�lschlicherweise zu der Annahme gelangen wird, die
Wartezeit sei nicht gleichverteilt."

Anmerkung: Das, was der OP wollte, war genaugenommen kein Test
'gleichverteilt' vs. 'nicht gleichverteilt'
sondern
'gleichverteilt' vs. 'lange Wartezeiten sind sehr wahrscheinlich'.
Die Grundideen, die beiden Tests zugrundeliegen, sind jedoch sehr �hnlich.

>> Aber die Zufallsvariable
>> [1/n*Summe_{k=1 bis n} X_k], der empirische Mittelwert der Stichprobe
>> (hier: Mittelwert der n gemessenen Wartezeiten), ist nicht mehr
>> gleichverteilt.
>

> Der interessiert nirgends.

F�r die vom OP gestellte Frage ist dieser Mittelwert (*vor* Durchf�hrung
der eigentlichen Stichprobe ist das eine Zufallsvariable) entscheidend.
Mir f�llt auf die Schnelle nichts ein, wie man da sinnvoll ohne diesen
Mittelwert auskommt.

Message has been deleted

Stephan Gerlach

unread,

Sep 26, 2009, 11:33:45 AM9/26/09

to

Ralf . K u s m i e r z schrieb:

> Wenn die mittlere Wartezeit signifikant von f�nf Minuten abweicht,
> dann liegt in der Tat keine Gleichverteilung der Wartezeiten vor, weil
> die den entsprechenden Mittelwert impliziert (von mir aus auch �ber
> den zentralen Grenzwertsatz).

Den Grenzwertsatz braucht man nicht zuletzt auch deswegen, um die
Wahrscheinlichkeit
[Zitat ich selbst]

P[Fehler]
= P[OP entscheidet sich f�lschlicherweise f�r H1]
= P[OP entscheidet sich f�r H1 | es gilt H0]
= P[M ist au�erhalb des Intervalls [4,6]]

[/Zitat ich selbst]
zu berechnen. Um P[M ist ...] berechnen zu k�nnen, mu� man ja wissen,
welche Verteilung die Zufallsvariable M hat - eben eine n�herungsweise
Normalverteilung.

> Interessant w�ren im �brigen noch h�here
> Momente der Samples - k�nnte ja auch ein Mittelwert von ca. 5 Minuten
> herauskommen, obwohl Wartezeiten zwischen 4 und 6 Minuten empirisch
> vielleicht gar nicht auftreten.

Ja, es k�nnte z.B. passieren, da� bei 10 Versuchen folgendes
Testergebnis eintritt:
X_1 = 0
X_2 = 0
X_3 = 0
X_4 = 0
X_5 = 0
X_6 = 10
X_7 = 10
X_8 = 10
X_9 = 10
X_10 = 10

F�hrt man jetzt den beschriebenen Test durch, so ist M = 5, und man
gelangt hier zur etwas merkw�rdig anmutenden Schlu�folgerung
'X ist gleichverteilt'.
Es ist bei Ansicht der Testergebnisse wohl davon auszugehen, da� man
sich damit f�lschlicherweise f�r H0 entschieden hat, obwohl vermutlich
H1 gilt. Das w�re ein sogenannter Fehler 2. Art, �ber den man AFAIK beim
genannten Test rein gar nichts(?) aussagen kann. Vermutlich k�nnte man
ihn verringern, wenn man h�here Momente (immer unter der Annahme, X sei
gleichverteilt) mit einbringt. Also nicht nur auf der �berlegung aufbauen
"Wenn X gleichverteilt ist, so m��te M mit hoher Wahrscheinlichkeit in
der N�he von 5 landen",
sondern z.B. sowas einf�gen wie
"... und weiterhin sollte die empirische Varianz der X1,...,X_n in
[passender_Bereich] liegen".
Beim oben genannten Beispiel-Testergebnis pa�t diese Varianz vermutlich
nicht mehr zur Hypothese, X sei [0,10]-gleichverteilt :-) .

Was aber bei dem genannten Test auf jeden Fall abgedeckt ist (auch ohne
Betrachtung h�herer Momente), ist, da� der Fehler 1. Art "entscheide
dich f�r H1, obwohl H0 gilt" sehr unwahrscheinlich ist. Wenn man so
will, der Test "sieht" nur den Fehler 1. Art.

Alfred Heiligenbrunner

unread,

Oct 10, 2009, 1:22:15 PM10/10/09

to

Stephan Gerlach schrieb am 26.09.2009 17:33:
>> Interessant w�ren im �brigen noch h�here
>> Momente der Samples - k�nnte ja auch ein Mittelwert von ca. 5 Minuten
>> herauskommen, obwohl Wartezeiten zwischen 4 und 6 Minuten empirisch
>> vielleicht gar nicht auftreten.
>
> Ja, es k�nnte z.B. passieren, da� bei 10 Versuchen folgendes
> Testergebnis eintritt:
> X_1 = 0
> X_2 = 0
> X_3 = 0
> X_4 = 0
> X_5 = 0
> X_6 = 10
> X_7 = 10
> X_8 = 10
> X_9 = 10
> X_10 = 10
>
> F�hrt man jetzt den beschriebenen Test durch, so ist M = 5, und man
> gelangt hier zur etwas merkw�rdig anmutenden Schlu�folgerung
> 'X ist gleichverteilt'.

Wenn du als Testgr��e das Stichprobenmittel nimmst, machst du auch nur
einen Test auf den _Mittelwert_ der zugrunde liegenden Zufallsvariablen,
nicht �ber deren Verteilungen. Nach dem zentralen Grenzwertsatz ist ja
jegliche Summe von identisch verteilten Zufallsvariablen n�herungsweise
normalverteilt, egal, welcher konkreten Verteilung (Gleich-, Normal-,
Exponential-, ... -verteilung) sie entstammen.

Um zu pr�fen, welche Verteilung vorliegt, k�nnte man, wie du
vorschl�gst, die h�heren Momente mit einbeziehen.
�blicherweise teilt man aber einfach die vermutete Verteilung in
Intervalle gleicher H�ufigkeit und pr�ft, wie gut die empirische
Verteilung mit der theoretischen Verteilung �bereinstimmt. Siehe
Chi-Quadrat-Anpassungstest oder Kolmogorov-Smirnov-Test.
http://de.wikipedia.org/wiki/Kolmogorov-Smirnov-Test

Man kann sich auch Gedanken machen, wo das Maximum und das Minimum einer
Stichprobe vom Umfang n liegen, wenn man die Verteilung der einzelnen
Zufallsvariablen kennt (oder vermutet). N�heres dazu findest du unter
dem Begriff "Ordnungsstatistik".
http://de.wikipedia.org/wiki/Ordnungsstatistik

Allerdings vermute ich, dass es den Original-Poster mehr interessiert,
wie lange er im Mittel warten muss, als wie die Wartezeit nun verteilt ist.

MfG
Alfred