Statistik: Stichprobenvergleich bei Anteilswerten

B. Jennen

unread,

Oct 9, 2002, 2:26:36 AM10/9/02

to

Hallo, guten Tag,
Krankenhäuser müssen ihre Leistungsdaten (und die Diagnosen)
verschlüsseln. In der kleinen Tabelle sind Häuser zweier Regionen
hinsichtlich der "Codierqualität" (Fehlerrate) gegenübergestellt.
Wie muss ich sauber vorgehen, um die Frage zu beantworten, ob der
Unterschied statistisch bedeutsam (oder zufällig) ist.
Hier liegen Anteilswerte vor, keine Mittelwerte - sonst könnte ich
einen t-Test rechnen.

Region A Region B
n=5 n=7
-------------------------
6% 17%
12% 13%
16% 14%
11% 12%
5% 9%
10%
6%
-------------------------

Meine Idee: ich rechne eine einfache Varianzanalyse? Aber: darf ich so
einfach Mittelwert und Standardabweichung von Anteilswerten berechnen?
Und leider sind die Stichproben auch nicht gleich groß.
Wie macht man das in diesem speziellen Fall methodisch richtig? Und
wie rechnet man sowas unter SPSS, ich habe hierzu in der Hilfe nichts
gefunden (Version 11)

Danke für Eure Hilfe und
Freundliche Grüße
Brigitta

Kurt Watzka

unread,

Oct 9, 2002, 1:21:47 PM10/9/02

to

b.je...@gmx.de (B. Jennen) writes:

>Hallo, guten Tag,
>Krankenhaeuser muessen ihre Leistungsdaten (und die Diagnosen)
>verschluesseln. In der kleinen Tabelle sind Haeuser zweier Regionen
>hinsichtlich der "Codierqualitaet" (Fehlerrate) gegenuebergestellt.

>Wie muss ich sauber vorgehen, um die Frage zu beantworten, ob der

>Unterschied statistisch bedeutsam (oder zufaellig) ist.
>Hier liegen Anteilswerte vor, keine Mittelwerte - sonst koennte ich
>einen t-Test rechnen.

1.) Anteilswerte _sind_ Mittelwerte einer Bernoulliverteilten
Zufallsgroesse.

2.) Die Voraussetzung fuer den Zwei-Stichproben-t-Test ist nicht,
dass die vorliegenden Beobachtungen Mittelwerte sind, sondern
dass die Beobachtungen aus zwei Verteilungen stammen, die
beide Normalverteilungen sind, die sich in der Varianz nicht
unterscheiden.

3.) Der Zahl der Daten angemessen erscheint mir ein Permutationstest.

>Region A Region B
> n=5 n=7
>-------------------------
> 6% 17%
>12% 13%
>16% 14%
>11% 12%
>5% 9%
> 10%
> 6%
>-------------------------

>Meine Idee: ich rechne eine einfache Varianzanalyse? Aber: darf ich so
>einfach Mittelwert und Standardabweichung von Anteilswerten berechnen?

Was wuerde dagegensprechen? Aber: es gibt keinen Unterschied zwischen
dem zwei-Stichproben-t-Test und einer Varainzanalyse bei gerade
zwei Faktorstufen. Die Verteilungen der Testgroesen unter den jeweiligen
Nullhypothesen sind ineinander transformierbar.

>Und leider sind die Stichproben auch nicht gleich gross.

Das ist weder fuer den Zwei-Stichproben-t-Test noch fuer die Varianzanlyse
ein Problem.

>Wie macht man das in diesem speziellen Fall methodisch richtig? Und
>wie rechnet man sowas unter SPSS, ich habe hierzu in der Hilfe nichts
>gefunden (Version 11)

Wenn SPSS Version 11 einen zwei-Stichproben-Permutationstest auf
Lageunterschiede anbietet, dann damit, ansonsten mit Papier und
Bleistift.

Fuer 12 Elemente gibt es 12! moegliche Anordnungen, d.h. die kritische
Region besteht aus den 23950080 extremsten Anordnungen der Anteile.

Das ist moeglicherweise etwas viel fuer Bleistift und Papier, deswegen
ist ein Programm wie StatXact sicher die bessere Loesung.

Wegen der kleinen Fallzahl und der fraglichen Voraussetzungen fuer einen
parametrischen Test wuerde ich auf jeden Fall zu einem nicht-parametrischen
Test raten.

Kurt

--
| Kurt Watzka
| wat...@stat.uni-muenchen.de

Kurt Watzka

unread,

Oct 9, 2002, 4:56:58 PM10/9/02

to

wat...@stat.uni-muenchen.de (Kurt Watzka) writes:

>>Region A Region B
>> n=5 n=7
>>-------------------------
>> 6% 17%
>>12% 13%
>>16% 14%
>>11% 12%
>>5% 9%
>> 10%
>> 6%
>>-------------------------

>Wenn SPSS Version 11 einen zwei-Stichproben-Permutationstest auf

>Lageunterschiede anbietet, dann damit, ansonsten mit Papier und
>Bleistift.

>Fuer 12 Elemente gibt es 12! moegliche Anordnungen, d.h. die kritische
>Region besteht aus den 23950080 extremsten Anordnungen der Anteile.

>Das ist moeglicherweise etwas viel fuer Bleistift und Papier, deswegen
>ist ein Programm wie StatXact sicher die bessere Loesung.

Im speziellen Fall des Zwei-Stichproben-Tests sind allerdings nur 792
Anordnungen unterscheidbar, so dass Papier und Bleistift beim Aussuchen
der 40 extremsten moeglicherweise doch ausreichen.

--
| Kurt Watzka
| wat...@stat.uni-muenchen.de

Joachim Zink

unread,

Oct 10, 2002, 4:49:05 AM10/10/02

to

b.je...@gmx.de (B. Jennen) wrote in message news:<ca4d94ad.02100...@posting.google.com>...
> Hallo, guten Tag,
> Krankenhäuser müssen ...

Hallo,
Wie ist folgende Idee?
Ich betrachte die "mittleren Anteile" p1 und p2 in Region1 und
Region2.
Nullhypothese vorausgesetzt, sollte die Differenz D dieser Anteile
Null sein.
D.h. die möglichen StichprobenAnteile sollten normalverteilt sein mit
dem Erwartungswert 0 und einer Varianz, die sich aus den Stichproben
schätzen lässt.
Was ich dann nachschauen muss, ist die Wahrscheinlichkeit für den
tatsächlich beobachteten Unterschied. Ist der größer als
(üblicherweise) 5%, muss ich die Nullhypothese ablehenen, d.h. der
Unterschied zwischen den Gruppenanteilen ist nicht durch die zufällige
Stichprobenauswahl bedingt.

Wo ich mir nicht ganz sicher bin, ist, wie man die "mittleren Anteile"
der Regionen berechnet. Einfach den Durchschnitt aus den Anteilen zu
berechnen, dürfte meistens nicht stimmen. Ich würde die Prozentzahlen
mit den zugehörigen Fallzahlen n (kennt man ja, sonst könnte ich die
relativen Häufigkeiten nicht berechnen) gewichten und so die Fehler x
erhalten. Aus den ausummierten x und n kann ich für jede Region einen
"mittleren Anteil" p1 bzw. p2 berechnen.
Hier meine Beispielrechnung mit fiktiven n:

----------------------------------------------
n Region1 x=n*p | n Region2 x=n*P
----------------------------------------------
50 6% 3 | 100 17% 17
100 12% 12 | 200 13% 26
50 16% 8 | 50 14% 7
100 11% 11 | 25 12% 3
100 5% 5 | 100 9% 9
| 100 10% 10
| 50 6% 3
----------------------------------------------
n1=400 39 | n2=625 65
-----------------------------------------------
p1=39/400 p2=65/625
=0.0975 =0.104

D=p2-p1=0.0065

Die Standardabweichung kann ich schätzen nach folgender Formel:
_____________________________
_ /
\ / p1(1-p1) p2(1-p2)
s(p) = \ / -------------- + ----------
\/ n1 n2

s(p) = Wurzel [ 0.0975*(1-0.0975)/400 + 0.104*(1-0.104)/625] =
0.0192

Die Differenz der Anteilswerte sollte also (Nullhypothese
vorausgesetzt) normalverteilt N(0,s(p)) sein mit den Parametern my=0
und Standardabweichung (geschätzt) s(p)=0.0192
Wenn man diese Werte in Excel eingibt - Formel:
[=1-NormVert(0.0065;0;0.0192;1)] erhält man als Wahrscheinlichkeit
P(D>0.0065) = 0.36747
D. h. die Wahrscheinlichkeit, dass beim Stichprobenziehen
Anteilswertdifferenzen größer als D=0.0065 auftreten, ist rund 37%,
also weit weg vom 5%-Niveau. Die Nullhypothese müsste danach
beibehalten werden, der beobachtete Unterschied sehr wahrscheinlich
durch die zufällige Stichprobenauswahl bedingt.
Wie man das unter SPSS rechnet weiß ich nicht, würde mich aber
ebenfalls interessieren.
Ich hoffe, ich hab mich auf die Schnelle nicht verrechnet.
Was ist von dieser Betrachtungsweise zu halten?

Gruss
Joachim