www.korpora.org

Stephan Hennig

unread,

May 28, 2011, 9:26:56 AM5/28/11

to trennmuster...@googlegroups.com

Hi,

gerade eben stie� ich auf diese Seite von der Universit�t Duisburg-Essen,

<URL:http://www.korpora.org/>

auf der vier Textkorpora angeboten werden.

> Nutzungsbedingungen
>
> Die Textsammlungen k�nnen f�r wissenschaftliche, nichtkommerzielle
> Zwecke verwendet werden, sofern auf die Quelle verwiesen wird.
>
> Wir m�chten Forschungs-Ergebnisse sammeln, die an den Textsammlungen
> erzielt werden. Daher ist eine Bedingung f�r die Nutzung der Texte,
> dass Sie uns unaufgefordert ggf. bibliographische Daten zu Ihren
> Ver�ffentlichungen zur Verf�gung stellen, f�r die sie (Auswertungen
> von) Daten von Korpora.org verwendet haben, und sich mit der
> Ver�ffentlichung dieser Daten auf dieser Seite einverstanden
> erkl�ren.
>
> Eine Weiterverbreitung der Korpora ist nicht gestattet.
>
> Sollten Sie die Texte anderweitig nutzen wollen, nehmen Sie bitte
> Kontakt mit uns auf.

Die "Grundgesetze der Arithmetik" oder der Kant-Korpus w�ren schon
interessant. Mag jemand mit den Leuten Kontakt aufnehmen und
nachfragen, ob wir die Korpora f�r unsere Zwecke verwenden d�rfen? Zwar
werden wir vermutlich keine zitatf�higen Ergebnisse erbringen, aber der
letzte Satz macht doch Hoffnung.

Viele Gr��e
Stephan Hennig

Klemens Bobenhausen

unread,

May 28, 2011, 9:53:31 AM5/28/11

to trennmuster...@googlegroups.com

Huhu,

in meiner Zeit am Klassikerw�rterbuch in Freiburg wurden einige
historische Korpora erstellt, f�r die ich wohl die Erlaubnis einholen
k�nnte, sie dem Trenmuster zur Verf�gung zu stellen. Vom Umfang her
m�sste ich gucken, ich sch�tze mal ca. 150.000 unterschiedliche
Zeichenketten. Die allerdings in der Orthographie des 18. und 19.
Jahrhunderts.

Im Gegenzug h�tte ich sehr gro�es Interesse an der aufbereiteten
Google-Liste, die wir dann im Metricalizer (www.metricalizer.de) als
Wortliste f�r den Gedichtgenerator einsetzen k�nnten.

Viele Gr��e
Klemens Bobenhausen

-
--
---
Automatisches Metrisches Markup / Automated Metrical Markup
<http://home.versanet.de/~kb-369326/>

metricalizer
<http://www.poetron-zone.de/metricalizer/index.php>

DFG-Projekt "Freiburger Anthologie - Lyrik und Lied"
<http://www.lyrik-und-lied.de>

"Freiburger Anthologie"
<http://www.freiburger-anthologie.de>
---
--
-

Georg Verweyen

unread,

May 28, 2011, 11:16:33 AM5/28/11

to trennmuster...@googlegroups.com

Am 28.05.11 16:26, schrieb Stephan Hennig:
> <URL:http://www.korpora.org/>
>> Nutzungsbedingungen [...]

>>
>> Sollten Sie die Texte anderweitig nutzen wollen, nehmen Sie bitte
>> Kontakt mit uns auf.
> Die "Grundgesetze der Arithmetik" oder der Kant-Korpus w�ren schon
> interessant. Mag jemand mit den Leuten Kontakt aufnehmen und
> nachfragen, ob wir die Korpora f�r unsere Zwecke verwenden d�rfen?

Ja gerne, mach ich!

Georg

Stephan Hennig

unread,

Aug 11, 2011, 12:20:51 PM8/11/11

to trennmuster...@googlegroups.com

schrieb Klemens Bobenhausen:

> in meiner Zeit am Klassikerw�rterbuch in Freiburg wurden einige
> historische Korpora erstellt, f�r die ich wohl die Erlaubnis einholen
> k�nnte, sie dem Trenmuster zur Verf�gung zu stellen. Vom Umfang her
> m�sste ich gucken, ich sch�tze mal ca. 150.000 unterschiedliche
> Zeichenketten. Die allerdings in der Orthographie des 18. und 19.
> Jahrhunderts.

Das h�rt sich nicht schlecht an. Momentan erstellen wir solche
Trennmuster zwar nicht, aber vielleicht findet sich jemand mit Bedarf
daf�r. Allerdings ... wie sahen damals die Konventionen zur
Zeilentrennung aus? Gab es �berhaupt einheitliche Regeln dazu (unter
Setzern)?

> Im Gegenzug h�tte ich sehr gro�es Interesse an der aufbereiteten
> Google-Liste,

Angeh�ngt ist ein Lua-Skript, welches im deutschen Google-Books-Korpus
die H�ufigkeit jedes "Wortes" �ber alle Jahre kumuliert und eine durch
Leerzeichen getrennte Liste der Form

Wort1 H�ufigkeit
Wort2 H�ufigkeit

ausgibt. Die Liste beh�lt die (alphabetische) Sortierung sowie Gro�-
und Kleinschreibung des Korpus bei. Das bedeutet, zu Verben, Adjektiven
usw. existiert h�ufig auch eine Form in Gro�schreibung mit geringer
H�ufigkeit, die wohl von Satzanf�ngen herr�hrt. Solche Formen werden
durch dieses Skript nicht zusammengef�hrt. In der Mannheimer Liste ist
es �brigens genauso.

Zur Verwendung: Zun�chst l�dt man die zehn ZIP-Dateien des deutschen
Korpus der Unigramme (1-Gramme) herunter,
<URL:http://ngrams.googlelabs.com/datasets> (ca. 1 GB). Die Dateien
brauchen /nicht/ entpackt zu werden. Das angeh�ngte Archiv mit den zwei
Dateien

corpus-googlebooks.lua
gbc.lua

entpackt man in das Verzeichnis mit den Korpus-Dateien.
corpus-googlebooks.lua ist ein Modul, welches Iteratoren bereitstellt
mit denen man �ber alle ZIP-Dateien, CSV-Dateien, Zeilen oder n-Gramme
des Google-Books-Korpus iterieren kann. Das Skript gbc.lua ist
ausf�hrbar und enth�lt nur zwei Zeilen. Es muss mit texlua aufgerufen
werden:

>texlua gbc.lua > gbc.txt

Das Skript l�uft auf einem 2,7-GHz-Sempron etwa eine halbe Stunde. Die
entstehende Wortliste hat eine Gr��e von 64.457.888 Bytes (mit
DOS-Zeilenenden) und besteht aus 3.685.341 Zeilen.

Falls man Lua statt texlua verwenden m�chte, muss man im Modul
corpus-googlebooks.lua noch die Module luazip und slnunicode per require
einbinden. In texlua sind diese bereits vorhanden.

Ich werde die Skripten bei Gelegenheit ins Repositorium stellen (und um
Dokumentation erweitern).

> die wir dann im Metricalizer (www.metricalizer.de) als Wortliste f�r
> den Gedichtgenerator einsetzen k�nnten.