Redundante Fehlerquoten

Norbert Pürringer

unread,

Dec 11, 2009, 8:41:07 AM12/11/09

to

Hallo Leute,

ich beschäftige mich zur Zeit mit dem Thema Bestimmung der Fehlerquote
bei manueller Dateneingabe. Ich würde nur wissen, ob ich irgendwo
einen Denkfehler habe.

Ich gehe von einer bestimmten Fehlerquote eines Datenoperators aus.
Z.B. beträgt die Fehlerquote eines Operators 1:100, d.h. in 1 zu 100
Fällen macht er eine Fehleingabe.

Mir geht es nun darum, die Fehlerquote stark zu verbessern, indem die
Dateneingabe wiederholt wird. Die Redundanz führt zu einer besseren
Fehlerquote.

Zwei Redundanzmöglichkeiten gibt es:
-) es gibt mehrere unabhängige Operatoren, die die gleiche Eingabe
machen,
-) es gibt einen Operator, der mehmals die gleiche Eingabe macht

Wenn nun 2 unabhängige Operatoren eine Eingabe machen, müsste doch die
Fehlerquote des einen Operators mit der Fehlerquote des 2.
multipliziert werden, oder?
Beispiel: Operator 1 hat Quote von 1:100, Operator 2 von 1:200
Die Gesamtfehlerquote ist 5x10^-5

Im 2. Falle könnte man meinen, dass man die Fehlerquote des einzigen
Operators mit sich selbst multiplizieren muss. Ich bin der Meinung,
dass das nicht zu einem realen Ergebnis führt. Ich unterstelle diesem
Operator eine bestimmte Fehlersystematik, die zu einer Abhängigkeit
der einzelnen Quoten miteinander führt. Die Quoten korrelieren
miteinander. Stimmt diese Ansicht von mir? Wenn ja, gibt es eine
Chance, diese Korrelation in eine Formel zu packen?

Würde mich über jede Antwort freuen.

Danke und Grüße,
Norbert

Klaus Stein

unread,

Dec 11, 2009, 9:41:27 AM12/11/09

to

Norbert Pürringer <thal...@graffiti.net> wrote:
>
> Ich gehe von einer bestimmten Fehlerquote eines Datenoperators aus.
> Z.B. beträgt die Fehlerquote eines Operators 1:100, d.h. in 1 zu 100
> Fällen macht er eine Fehleingabe.

Fraglich, ob so ein Durchschnittswert statthaft ist. Die Fehlerquote kann
stark von der Art der Daten abhängen und so auch innerhalb des Datensatzes
stark schwanken (ganz abgesehen von Effekten wie Ermüdung über die Zeit etc).

>
> Wenn nun 2 unabhängige Operatoren eine Eingabe machen, müsste doch die
> Fehlerquote des einen Operators mit der Fehlerquote des 2.
> multipliziert werden, oder?
> Beispiel: Operator 1 hat Quote von 1:100, Operator 2 von 1:200
> Die Gesamtfehlerquote ist 5x10^-5

Nein, da die Fehlerwahrscheinlichkeit wie oben erwähnt von den Daten
abhängen kann, d.h. die Wahrscheinlichkeit, daß beide Operatoren an der
selben Stelle einen Fehler machen ist höher.
Extrembeispiel: 10000 mal die Zahl 0 und dann die Ziffernfolge
5628795672384056432789563472895643298756457982346593847563478956234879

Die Wahrscheinlichkeit, daß in den ersten 9950 Zeichen ein Fehler ist, ist
für beide sehr gering, die Wahrscheinlichkeit, daß sie ein paar 0 zu viel
oder zu wenig haben, relativ hoch, und die Wahrscheinlichkeit in den
Endziffen einen Fehler zu haben irgendwo dazwischen. Natürlich schwanken die
Eingabedaten normalerweise nicht so extrem, aber die Effekte wird es geben.

Wenn die Eingabedaten darüberhinaus eine für den Menschen verstehbare
Semantik haben, können diese Effekte noch viel stärker werden.

Ein Beispiel ist hier das fehlerfreie Schreiben von Texten. Die
Wahrscheinlichkeit für bestimmte Rechtschreib- und Tippfehler ist sicher
nicht konstant, d.h. beide werden mit erhöhter Wahrscheinlichkeit an den
gleichen Stellen Fehler machen.

> Im 2. Falle könnte man meinen, dass man die Fehlerquote des einzigen
> Operators mit sich selbst multiplizieren muss. Ich bin der Meinung,
> dass das nicht zu einem realen Ergebnis führt. Ich unterstelle diesem
> Operator eine bestimmte Fehlersystematik, die zu einer Abhängigkeit
> der einzelnen Quoten miteinander führt. Die Quoten korrelieren
> miteinander. Stimmt diese Ansicht von mir? Wenn ja, gibt es eine
> Chance, diese Korrelation in eine Formel zu packen?

Siehe oben.

Für eine Formel müßte man viel über die Art der Daten sowie die äußeren
Umstände wissen.

Klaus

--
http://lapiz.istik.de/

The Answer is 42. And I am the Answer. Now I am looking for the Question.

Norbert Pürringer

unread,

Dec 11, 2009, 10:56:19 AM12/11/09

to

Hallo Klaus,

> Fraglich, ob so ein Durchschnittswert statthaft ist. Die Fehlerquote kann
> stark von der Art der Daten abhängen und so auch innerhalb des Datensatzes
> stark schwanken (ganz abgesehen von Effekten wie Ermüdung über die Zeit etc).

Das hast du vollkommen recht. Danke für diesen Hinweis. Ich bin
dennoch auf der Suche nach einer statistischen redundanten
Fehlerquotenauswertung eines Menschen.

Vielleicht macht es Sinn, die Fehlerquote pessimistisch zu ermitteln.
Z.B. indem ich nicht den Mittelwert oder den Median heranziehe sondern
das untere Quartil. Das untere Quartil ist dann die Fehlerquote des
Menschen, die dann bei jeder redundanten Eingabe des gleichen Wertes
multipliziert wird.
Beispiel: Im Schnitt hat jemand eine Fehlerquote von 1:100, sein
unteres Quartil ist 1:70. Wenn er den gleichen Wert 2x eingibt, ergibt
sich eine Gesamt-Fehlerquote von (1/70)*(1/70), das ist etwa 2 x
10^-4.

In meinem Fall gehe ich nicht davon aus, dass der Inhalt der Daten
grob systematisch sind. Es werden vielmehr geografische Koordinaten
eingegeben und das sind immer wieder normale Fließkommazahlen.

Klaus, du machst also keinen Unterschied zwischen der
Fehlerquotenberechnung aus zwei verschiedenen Operatoren, die den
gleichen Wert eingeben, und einem einzigen Operator, der 2x den Wert
eingibt?

Gruß,
Norbert

Klaus Stein

unread,

Dec 15, 2009, 3:35:41 AM12/15/09

to

Norbert Pürringer <thal...@graffiti.net> wrote:
> [...]

>
> In meinem Fall gehe ich nicht davon aus, dass der Inhalt der Daten
> grob systematisch sind. Es werden vielmehr geografische Koordinaten
> eingegeben und das sind immer wieder normale Fließkommazahlen.
>
> Klaus, du machst also keinen Unterschied zwischen der
> Fehlerquotenberechnung aus zwei verschiedenen Operatoren, die den
> gleichen Wert eingeben, und einem einzigen Operator, der 2x den Wert
> eingibt?

Doch. Ich gehe davon aus, daß Häufungseffekte bei einem einzelnen stärker
auftreten (vielleicht ist er besonders anfällig für bestimmte Zahlendreher)
aber auch bei mehreren vorhanden sind (die Zahl 22222 ist einfacher
als 14141 die wiederum einfacher ist als 82540, was noch nicht zwingend
bedeutet, daß letztere die höchste Fehlerwahrscheinlichkeit hat, weil sie
ggf. auch mehr Aufmerksamkeit erzeugt, ich behaupte lediglich, daß die
Fehlerwahrscheinlichkeit interpersonell in irgendeiner Weise korrelierend
von den aktuell eingegebenen Zahlen abhängt).

Norbert Pürringer

unread,

Dec 17, 2009, 3:51:49 AM12/17/09

to

Hallo Klaus,

> ich behaupte lediglich, daß die
> Fehlerwahrscheinlichkeit interpersonell in irgendeiner Weise korrelierend
> von den aktuell eingegebenen Zahlen abhängt).

Wenn du also schreibst, "in irgendeiner Weise", dann schätze ich mal,
dass es kaum möglich sein wird, diese Korrelation für einen bestimmten
Menschen (oder für mehrere) über Parameter oder Formeln anzugeben. Man
kann's vielleicht gefühlsmäßig für einen Operator angeben, z.B.
Fehlerrate * 1,5 * Fehlerrate (wobei 1,5 der Korrelationswert ist).

Messinstrumente haben diese Korrelation nicht, wenn ich mich nicht
irre. Ein interessanter Fall ist sicher der bei Instrumenten
möglicherweise vorkommende systematische Fehler, der aber keinen
Einfluss auf die Integrität haben kann. Hier wird, wenn nichts dagegen
getan wird, immer falsch vermessen. Anders sieht es aus bei groben
Fehlern (Ausreißern) aus, da denke ich, dass diese Fehlerart einen
direkten Einfluss auf die Integrität (Fehlerrate) der Messung hat.
Wenn bei einem Test bei sagen wir 100.000 automatisiert ausgeführten
Messungen einer Größe 100 Ausreißer auftreten (die man mittels
Ausreißertests entdecken kann), dann schätze ich mal, dass die
Fehlerrate des Instruments 1 : 1000 ist. Diese Rate ist unkorreliert,
wenn eine Messung mehrmals ausgeführt wird. Zufällige Fehler haben
wiederum keinen Einfluss auf die Integrität. Wie siehst du das?

VG,
Norbert

Klaus Stein

unread,

Dec 17, 2009, 4:39:50 AM12/17/09

to

Norbert Pürringer <thal...@graffiti.net> wrote:
> > ich behaupte lediglich, daß die
> > Fehlerwahrscheinlichkeit interpersonell in irgendeiner Weise korrelierend
> > von den aktuell eingegebenen Zahlen abhängt).
>

> Messinstrumente haben diese Korrelation nicht, wenn ich mich nicht
> irre.

Wieso nicht? Natürlich kann es bestimmte Muster (beispielsweise in einem zu
messenden Datenstrom) geben, die systembedingt mit einer höheren
Wahrscheinlichkeit einen Meßfehler triggern als andere, so daß beim
Auftreten dieser Muster auch die Fehlerwahrscheinlichkeit zweier
unabhängiger Meßgeräte steigt. In der elektrischen Datenübertragung werden
daher bestimmte Pegelfolgen bewußt vermieden, da man weiß, daß bei diesen
erhöhte Fehlerraten auftreten.

> Ein interessanter Fall ist sicher der bei Instrumenten
> möglicherweise vorkommende systematische Fehler, der aber keinen
> Einfluss auf die Integrität haben kann. Hier wird, wenn nichts dagegen
> getan wird, immer falsch vermessen.

nein, siehe oben.

> Wie siehst du das?

Ich bin kein Fachmann, weder in Meßtechnik, noch in Statistik, d.h. wenn du
da inhaltlich was solides suchst, solltest du selbst recherchieren oder auch
Mitarbeiter entsprechender Unilehrstühle anfragen, ob sie dir weiterhelfen
können.

Ich wollte lediglich darauf hinweisen, daß es hier Korrelationen gibt, man
die Fehlerwahrscheinlichkeiten zweier Messungen nicht als unabhängig
betrachten darf, wenn man den Gesamtfehler bestimmen will, und wollte nicht
in eine weitergehende Diskussion einsteigen.

Norbert Pürringer

unread,

Dec 17, 2009, 5:04:01 AM12/17/09

to

Hallo Klaus,

> Ich wollte lediglich darauf hinweisen, daß es hier Korrelationen gibt, man
> die Fehlerwahrscheinlichkeiten zweier Messungen nicht als unabhängig
> betrachten darf, wenn man den Gesamtfehler bestimmen will, und wollte nicht
> in eine weitergehende Diskussion einsteigen.

Jedenfalls danke für deine Ansichten. Ich will ja keine
wissenschaftliche Arbeit schreiben. Ich hab anfangs nur die Hoffnung
gehabt, einfache Formeln für die Bestimmung der Integrität zu finden.
Aber die Korrelation scheint ein absoluter Spielverderber zu sein. Ich
kann sie in meiner Arbeit nur mal als unbekannte Größe angeben, die in
einer wissenschaftlicheren Arbeit eruiert werden soll.

Was ich aber wohl annehmen kann ist, dass ein Mensch eine höhere
Korrelation bei fehlerhaften Eingaben hat als die Maschine.

VG,
Norbert