schrieb Werner LEMBERG:
>> Eignet sich dazu das Trennmuster-Wiki auf Dante? Wie und wohin
>> k�nnte ich dort Dateien hochladen, die f�r alle verf�gbar sind?
>> Einen TWiki-Konto habe ich mir schon zugelegt (Ahnung von Wikis
>> jedoch keine).
>
> Ich denke, das funktioniert. Es scheint ein Gr��enlimit von 10MByte
> pro Datei zu geben, aber das sollte ausreichend f�r unsere Zwecke
> sein, oder?
Das reicht nicht. :) Google hat k�rzlich die Korpora aus Google Books
ver�ffentlicht[1], den ich gerade versuche auf eine handhabbare Gr��e
zusammenzustauchen. Bei den Rohdaten[2] (allein die 1-Gramme in zehn
ZIP-Archive zu je 100 MB) handelt es sich um 5 GB, die allerdings die
Worth�ufigkeiten pro Wort nach Jahren aufschl�sseln. Am Ende lande ich
bei einer Datei mit etwa 3,2 Mio. Eintr�gen, die rund 60 MB gro� ist,
gepackt 19 MB. Ich beschreibe die Vorgehensweise sp�ter genauer. Kann
das Limit im Wiki erh�ht werden?
Der Korpus steht unter Creative Commons Attribution 3.0 Unported
License. Abgeleitete Werke k�nnen also problemlos ver�ffentlicht werden.
Die Qualit�t der Liste geht in Ordnung. Sie enth�lt zwar viele typische
OCR-Fehler, wie
�rot => Brot
AVahrscheinlichkeit => Wahrscheinlichkeit
In erster N�herung k�nnen wir diese falschen "W�rter" aber einfach
ignorieren.
Einige Eckdaten:
* Das h�ufigste Wort ist (selbstverst�ndlich) "der" mit einer
H�ufigkeit von 1167791242.
* Der Korpus enth�lt nur W�rter, die in mindestens 40 B�chern
auftauchen. Eine geringst m�gliche H�ufigkeit von 40 entspricht
somit der H�ufigkeitsklasse 24, die jedoch nicht vollst�ndig ist.
Dazu m�ssten W�rter ab einer H�ufigkeit von 35 ber�cksichtigt sein.
Bei welcher H�ufigkeitsklasse aus der Mannheimer Liste sind wir
eigentlich?
Viele Gr��e
Stephan Hennig
[1] <URL:http://comments.gmane.org/gmane.science.linguistics.corpora/13159>
[2] <URL:http://ngrams.googlelabs.com/datasets>
> Einige Eckdaten:
>
> * Das h�ufigste Wort ist (selbstverst�ndlich) "der" mit einer
> H�ufigkeit von 1167791242.
>
> * Der Korpus enth�lt nur W�rter, die in mindestens 40 B�chern
> auftauchen. Eine geringst m�gliche H�ufigkeit von 40 entspricht
> somit der H�ufigkeitsklasse 24, die jedoch nicht vollst�ndig ist.
> Dazu m�ssten W�rter ab einer H�ufigkeit von 35 ber�cksichtigt sein.
> Bei welcher H�ufigkeitsklasse aus der Mannheimer Liste sind wir
> eigentlich?
* Der ver�ffentlichte Korpus ist zwei Jahre alt (Juli 2009).
* Das �lteste Buch im deutschen Korpus ist von 1564.
> Am Ende lande ich bei einer Datei mit etwa 3,2 Mio. Eintr�gen, die
> rund 60 MB gro� ist, gepackt 19 MB. Ich beschreibe die
> Vorgehensweise sp�ter genauer. Kann das Limit im Wiki erh�ht
> werden?
Wenn dieselben W�rter in Gro�- und Kleinschreibung als unterschiedliche
Wortformen betrachtet werden, enth�lt die Liste etwa 3,6 Mio. W�rter und
ist gepackt fast 24 MB gro�. Ein Limit von 25 MB pro Datei w�re nicht
schlecht. Zumindest vor�bergehend, so h�ufig wird Google den Korpus
nicht aktualisieren.
Die `Feedback'-Adresse beim DANTE TWiki gibt Joachim Schrod als
Kontaktmann an. Vielleicht kann er die Limits (temporär?)
hinaufsetzen.
Werner
19.
Werner
Etwas ungew�hnlich, aber doch durch Google dokumentiert: Die
CSV-Dateien sind jeweils alphabetisch sortiert, allerdings gibt es keine
datei�bergreifende Sortierung. In welcher Datei sich ein bestimmtes
Wort befindet, kann man also nicht im Voraus ahnen, sondern muss
schlimmstenfalls alle Dateien durchsuchen.
Die Liste mit H�ufigkeiten pro Wort, die man mit dem im Thema
"www.korpora.org" gezeigten Lua-Skript erzeugen kann, ist daher nur
abschnittsweise alphabetisch sortiert.
> Der Korpus steht unter Creative Commons Attribution 3.0 Unported
> License. Abgeleitete Werke k�nnen also problemlos ver�ffentlicht
> werden.
Ich habe den Korpus zusammengefasst und nach H�ufigkeitsklassen sortiert
ins Wiki hochgeladen:
<URL:http://projekte.dante.de/Trennmuster/Korpora>
-> Abschnitt Google-Books-Liste
-> Zugriff
Wegen der Dateigr��enbeschr�nkung auf 10 MB im Wiki musste ich die Liste
auf zwei ZIP-Archive aufteilen.
Danke!
Werner