Google-Books-Korpus

Stephan Hennig

unread,

May 28, 2011, 9:14:39 AM5/28/11

to trennmuster...@googlegroups.com, Werner LEMBERG

Hi,

schrieb Werner LEMBERG:

>> Eignet sich dazu das Trennmuster-Wiki auf Dante? Wie und wohin
>> k�nnte ich dort Dateien hochladen, die f�r alle verf�gbar sind?
>> Einen TWiki-Konto habe ich mir schon zugelegt (Ahnung von Wikis
>> jedoch keine).
>
> Ich denke, das funktioniert. Es scheint ein Gr��enlimit von 10MByte
> pro Datei zu geben, aber das sollte ausreichend f�r unsere Zwecke
> sein, oder?

Das reicht nicht. :) Google hat k�rzlich die Korpora aus Google Books
ver�ffentlicht[1], den ich gerade versuche auf eine handhabbare Gr��e
zusammenzustauchen. Bei den Rohdaten[2] (allein die 1-Gramme in zehn
ZIP-Archive zu je 100 MB) handelt es sich um 5 GB, die allerdings die
Worth�ufigkeiten pro Wort nach Jahren aufschl�sseln. Am Ende lande ich
bei einer Datei mit etwa 3,2 Mio. Eintr�gen, die rund 60 MB gro� ist,
gepackt 19 MB. Ich beschreibe die Vorgehensweise sp�ter genauer. Kann
das Limit im Wiki erh�ht werden?

Der Korpus steht unter Creative Commons Attribution 3.0 Unported
License. Abgeleitete Werke k�nnen also problemlos ver�ffentlicht werden.

Die Qualit�t der Liste geht in Ordnung. Sie enth�lt zwar viele typische
OCR-Fehler, wie

�rot => Brot
AVahrscheinlichkeit => Wahrscheinlichkeit

In erster N�herung k�nnen wir diese falschen "W�rter" aber einfach
ignorieren.

Einige Eckdaten:

* Das h�ufigste Wort ist (selbstverst�ndlich) "der" mit einer
H�ufigkeit von 1167791242.

* Der Korpus enth�lt nur W�rter, die in mindestens 40 B�chern
auftauchen. Eine geringst m�gliche H�ufigkeit von 40 entspricht
somit der H�ufigkeitsklasse 24, die jedoch nicht vollst�ndig ist.
Dazu m�ssten W�rter ab einer H�ufigkeit von 35 ber�cksichtigt sein.
Bei welcher H�ufigkeitsklasse aus der Mannheimer Liste sind wir
eigentlich?

Viele Gr��e
Stephan Hennig

[1] <URL:http://comments.gmane.org/gmane.science.linguistics.corpora/13159>
[2] <URL:http://ngrams.googlelabs.com/datasets>

Stephan Hennig

unread,

May 28, 2011, 9:46:44 AM5/28/11

to trennmuster...@googlegroups.com

schrieb Stephan Hennig:

> Einige Eckdaten:
>
> * Das h�ufigste Wort ist (selbstverst�ndlich) "der" mit einer
> H�ufigkeit von 1167791242.
>
> * Der Korpus enth�lt nur W�rter, die in mindestens 40 B�chern
> auftauchen. Eine geringst m�gliche H�ufigkeit von 40 entspricht
> somit der H�ufigkeitsklasse 24, die jedoch nicht vollst�ndig ist.
> Dazu m�ssten W�rter ab einer H�ufigkeit von 35 ber�cksichtigt sein.
> Bei welcher H�ufigkeitsklasse aus der Mannheimer Liste sind wir
> eigentlich?

* Der ver�ffentlichte Korpus ist zwei Jahre alt (Juli 2009).

* Das �lteste Buch im deutschen Korpus ist von 1564.

Stephan Hennig

unread,

May 28, 2011, 12:33:56 PM5/28/11

to trennmuster...@googlegroups.com

schrieb Stephan Hennig:

> Am Ende lande ich bei einer Datei mit etwa 3,2 Mio. Eintr�gen, die
> rund 60 MB gro� ist, gepackt 19 MB. Ich beschreibe die
> Vorgehensweise sp�ter genauer. Kann das Limit im Wiki erh�ht
> werden?

Wenn dieselben W�rter in Gro�- und Kleinschreibung als unterschiedliche
Wortformen betrachtet werden, enth�lt die Liste etwa 3,6 Mio. W�rter und
ist gepackt fast 24 MB gro�. Ein Limit von 25 MB pro Datei w�re nicht
schlecht. Zumindest vor�bergehend, so h�ufig wird Google den Korpus
nicht aktualisieren.

Werner LEMBERG

unread,

May 29, 2011, 12:07:40 PM5/29/11

to trennmuster...@googlegroups.com, mailin...@arcor.de

>> Am Ende lande ich bei einer Datei mit etwa 3,2 Mio. Einträgen, die
>> rund 60 MB groß ist, gepackt 19 MB. Ich beschreibe die
>> Vorgehensweise später genauer. Kann das Limit im Wiki erhöht
>> werden?
>
> Wenn dieselben Wörter in Groß- und Kleinschreibung als
> unterschiedliche Wortformen betrachtet werden, enthält die Liste
> etwa 3,6 Mio. Wörter und ist gepackt fast 24 MB groß. Ein Limit von
> 25 MB pro Datei wäre nicht schlecht. Zumindest vorübergehend, so
> häufig wird Google den Korpus nicht aktualisieren.

Die `Feedback'-Adresse beim DANTE TWiki gibt Joachim Schrod als
Kontaktmann an. Vielleicht kann er die Limits (temporär?)
hinaufsetzen.

Werner

Werner LEMBERG

unread,

Jun 2, 2011, 2:27:41 AM6/2/11

to mailin...@arcor.de, trennmuster...@googlegroups.com

> * Der Korpus enthält nur Wörter, die in mindestens 40 Büchern
> auftauchen. Eine geringst mögliche Häufigkeit von 40 entspricht
> somit der Häufigkeitsklasse 24, die jedoch nicht vollständig ist.
> Dazu müssten Wörter ab einer Häufigkeit von 35 berücksichtigt
> sein. Bei welcher Häufigkeitsklasse aus der Mannheimer Liste sind
> wir eigentlich?

19.

Werner

Stephan Hennig

unread,

Aug 29, 2011, 2:41:30 PM8/29/11

to trennmuster...@googlegroups.com

schrieb Stephan Hennig:

> schrieb Stephan Hennig:
>
>> Einige Eckdaten:
>>
>> * Das h�ufigste Wort ist (selbstverst�ndlich) "der" mit einer
>> H�ufigkeit von 1167791242.
>>
>> * Der Korpus enth�lt nur W�rter, die in mindestens 40 B�chern
>> auftauchen.
>

> * Der ver�ffentlichte Korpus ist zwei Jahre alt (Juli 2009).
>
> * Das �lteste Buch im deutschen Korpus ist von 1564.

Etwas ungew�hnlich, aber doch durch Google dokumentiert: Die
CSV-Dateien sind jeweils alphabetisch sortiert, allerdings gibt es keine
datei�bergreifende Sortierung. In welcher Datei sich ein bestimmtes
Wort befindet, kann man also nicht im Voraus ahnen, sondern muss
schlimmstenfalls alle Dateien durchsuchen.

Die Liste mit H�ufigkeiten pro Wort, die man mit dem im Thema
"www.korpora.org" gezeigten Lua-Skript erzeugen kann, ist daher nur
abschnittsweise alphabetisch sortiert.

Stephan Hennig

unread,

Sep 4, 2011, 12:31:05 PM9/4/11

to trennmuster...@googlegroups.com

schrieb Stephan Hennig:

> Der Korpus steht unter Creative Commons Attribution 3.0 Unported
> License. Abgeleitete Werke k�nnen also problemlos ver�ffentlicht
> werden.

Ich habe den Korpus zusammengefasst und nach H�ufigkeitsklassen sortiert
ins Wiki hochgeladen:

<URL:http://projekte.dante.de/Trennmuster/Korpora>
-> Abschnitt Google-Books-Liste
-> Zugriff

Wegen der Dateigr��enbeschr�nkung auf 10 MB im Wiki musste ich die Liste
auf zwei ZIP-Archive aufteilen.

Werner LEMBERG

unread,

Sep 6, 2011, 11:09:36 AM9/6/11

to trennmuster...@googlegroups.com, mailin...@arcor.de

> Ich habe den Korpus zusammengefasst und nach Häufigkeitsklassen sortiert
> ins Wiki hochgeladen: [...]