Berechnung von Haeufigkeitsklassen

10 views
Skip to first unread message

Stephan Hennig

unread,
Aug 3, 2011, 5:12:49 PM8/3/11
to trennmuster...@googlegroups.com
Hi,

im Netz sto�e ich auf verschiedene Formeln zur Berechnung der
H�ufigkeitsklasse eines Wortes.

1. Wortschatzprojekt der Uni Leipzig

Georg hatte schon mal auf diese Seite verwiesen:
<URL:http://wortschatz.uni-leipzig.de/html/faq/hkl.html>. Dort findet
man die Formel:

| F(R) |
K(W) = | log_2 -------- | (1)
| F(W) |
|_ _|

K(W) H�ufigkeitsklasse des Wortes W
F(W) Anzahl der Vorkommen des Wortes W im Korpus
F(R) Anzahl der Vorkommen des Referenzwortes im Korpus ("der")
|_x_| ganzzahliger Anteil von x (Gau�klammer)


2. IDS Mannheim

In Mannheim sieht die Formel etwas anders aus:
<URL:http://www.ids-mannheim.de/kl/dokumente/freqMeasures.html> (ganz
unten unter "H�ufigkeitsklasse" auf "mehr" klicken). In PDF-Dateien,
die man auf den Mannheimer Seiten findet, findet sich dieselbe Formel.


| F(R) |
K(W) = | 0,5 + log_2 -------- | (2)
| F(W) |
|_ _|

Durch die Addition von 0,5 innerhalb der Klammer wird die
H�ufigkeitsklasse effektiv gerundet, statt dass der Nachkommaanteil
abgeschnitten wird. Mannheimer H�ufigkeitsklassen sind im Mittel also
gr��er als Leipziger.


3. Die freie Enzyklop�die

Der Vollst�ndigkeit halber soll auch diese Variante genannt sein, obwohl
es mit so vorkommt, als l�ge der Autor m�chtig daneben:
<URL:http://de.wikipedia.org/wiki/H%C3%A4ufigkeitsklasse>


| F(R) |
K(W) = | 0,5 - log_2 -------- | (3)
| F(W) |
|_ _|

Diese Formel widerspricht der drei Zeilen tiefer gegebenen
Interpretation "W�rter, die etwa \frac{1}{2^N} mal so h�ufig wie dieses
auftreten, werden in die H�ufigkeitsklasse N eingeordnet." Vermutlich
meinte der Autor die Mannheimer Formel (2).

Selbst wenn man die dritte Variante beiseite l�sst, frage ich mich,
warum Leipzig und Mannheim unterschiedliche Formeln angeben. Eine
m�gliche Erkl�rung w�re, dass es /die/ H�ufigkeitsklasse eines Wortes
gar nicht gibt, sondern diese immer auf einen konkreten Korpus bezogen
ist. Ein quantitativer Vergleich von H�ufigkeitsklassen eines Wortes
verschiedener Korpora ist nicht sinnvoll. Die H�ufigkeitsklasse dient
lediglich dazu (irgend)eine interpretierbare Rangordnung der W�rter
eines Korpus herzustellen. Dies wird mit beiden Formeln, (1) und (2),
erreicht (und letzten Endes auch mit (3)).

Kann jemand mit einem besseren �berblick �ber die quantitative
Linguistik kl�ren, was es mit den Formeln auf sich hat? Gibt es eine
Konvention �ber die Berechnung der H�ufigkeitsklasse? Oder macht jeder
"sein Ding"?

Viele Gr��e
Stephan Hennig

Stephan Hennig

unread,
Aug 3, 2011, 5:29:36 PM8/3/11
to trennmuster...@googlegroups.com
schrieb Stephan Hennig:
> 2. IDS Mannheim

>
> | F(R) |
> K(W) = | 0,5 + log_2 -------- | (2)
> | F(W) |
> |_ _|
>
> 3. Die freie Enzyklop�die
>
> Der Vollst�ndigkeit halber soll auch diese Variante genannt sein, obwohl
> es mit so vorkommt, als l�ge der Autor m�chtig daneben:
> <URL:http://de.wikipedia.org/wiki/H%C3%A4ufigkeitsklasse>
>
>
> | F(R) |
> K(W) = | 0,5 - log_2 -------- | (3)
> | F(W) |
> |_ _|
>
> Diese Formel widerspricht der drei Zeilen tiefer gegebenen
> Interpretation "W�rter, die etwa \frac{1}{2^N} mal so h�ufig wie dieses
> auftreten, werden in die H�ufigkeitsklasse N eingeordnet." Vermutlich
> meinte der Autor die Mannheimer Formel (2).

Jetzt f�llt mir auf, dass Z�hler und Nenner in der Wikipedia auch
vertauscht sind. Die Wikipediaformel entspricht damit genau der
Mannheimer Formel (2).

Reply all
Reply to author
Forward
0 new messages