gerade eben stie� ich auf diese Seite von der Universit�t Duisburg-Essen,
<URL:http://www.korpora.org/>
auf der vier Textkorpora angeboten werden.
> Nutzungsbedingungen
>
> Die Textsammlungen k�nnen f�r wissenschaftliche, nichtkommerzielle
> Zwecke verwendet werden, sofern auf die Quelle verwiesen wird.
>
> Wir m�chten Forschungs-Ergebnisse sammeln, die an den Textsammlungen
> erzielt werden. Daher ist eine Bedingung f�r die Nutzung der Texte,
> dass Sie uns unaufgefordert ggf. bibliographische Daten zu Ihren
> Ver�ffentlichungen zur Verf�gung stellen, f�r die sie (Auswertungen
> von) Daten von Korpora.org verwendet haben, und sich mit der
> Ver�ffentlichung dieser Daten auf dieser Seite einverstanden
> erkl�ren.
>
> Eine Weiterverbreitung der Korpora ist nicht gestattet.
>
> Sollten Sie die Texte anderweitig nutzen wollen, nehmen Sie bitte
> Kontakt mit uns auf.
Die "Grundgesetze der Arithmetik" oder der Kant-Korpus w�ren schon
interessant. Mag jemand mit den Leuten Kontakt aufnehmen und
nachfragen, ob wir die Korpora f�r unsere Zwecke verwenden d�rfen? Zwar
werden wir vermutlich keine zitatf�higen Ergebnisse erbringen, aber der
letzte Satz macht doch Hoffnung.
Viele Gr��e
Stephan Hennig
in meiner Zeit am Klassikerw�rterbuch in Freiburg wurden einige
historische Korpora erstellt, f�r die ich wohl die Erlaubnis einholen
k�nnte, sie dem Trenmuster zur Verf�gung zu stellen. Vom Umfang her
m�sste ich gucken, ich sch�tze mal ca. 150.000 unterschiedliche
Zeichenketten. Die allerdings in der Orthographie des 18. und 19.
Jahrhunderts.
Im Gegenzug h�tte ich sehr gro�es Interesse an der aufbereiteten
Google-Liste, die wir dann im Metricalizer (www.metricalizer.de) als
Wortliste f�r den Gedichtgenerator einsetzen k�nnten.
Viele Gr��e
Klemens Bobenhausen
-
--
---
Automatisches Metrisches Markup / Automated Metrical Markup
<http://home.versanet.de/~kb-369326/>
metricalizer
<http://www.poetron-zone.de/metricalizer/index.php>
DFG-Projekt "Freiburger Anthologie - Lyrik und Lied"
<http://www.lyrik-und-lied.de>
"Freiburger Anthologie"
<http://www.freiburger-anthologie.de>
---
--
-
Georg
> in meiner Zeit am Klassikerw�rterbuch in Freiburg wurden einige
> historische Korpora erstellt, f�r die ich wohl die Erlaubnis einholen
> k�nnte, sie dem Trenmuster zur Verf�gung zu stellen. Vom Umfang her
> m�sste ich gucken, ich sch�tze mal ca. 150.000 unterschiedliche
> Zeichenketten. Die allerdings in der Orthographie des 18. und 19.
> Jahrhunderts.
Das h�rt sich nicht schlecht an. Momentan erstellen wir solche
Trennmuster zwar nicht, aber vielleicht findet sich jemand mit Bedarf
daf�r. Allerdings ... wie sahen damals die Konventionen zur
Zeilentrennung aus? Gab es �berhaupt einheitliche Regeln dazu (unter
Setzern)?
> Im Gegenzug h�tte ich sehr gro�es Interesse an der aufbereiteten
> Google-Liste,
Angeh�ngt ist ein Lua-Skript, welches im deutschen Google-Books-Korpus
die H�ufigkeit jedes "Wortes" �ber alle Jahre kumuliert und eine durch
Leerzeichen getrennte Liste der Form
Wort1 H�ufigkeit
Wort2 H�ufigkeit
ausgibt. Die Liste beh�lt die (alphabetische) Sortierung sowie Gro�-
und Kleinschreibung des Korpus bei. Das bedeutet, zu Verben, Adjektiven
usw. existiert h�ufig auch eine Form in Gro�schreibung mit geringer
H�ufigkeit, die wohl von Satzanf�ngen herr�hrt. Solche Formen werden
durch dieses Skript nicht zusammengef�hrt. In der Mannheimer Liste ist
es �brigens genauso.
Zur Verwendung: Zun�chst l�dt man die zehn ZIP-Dateien des deutschen
Korpus der Unigramme (1-Gramme) herunter,
<URL:http://ngrams.googlelabs.com/datasets> (ca. 1 GB). Die Dateien
brauchen /nicht/ entpackt zu werden. Das angeh�ngte Archiv mit den zwei
Dateien
corpus-googlebooks.lua
gbc.lua
entpackt man in das Verzeichnis mit den Korpus-Dateien.
corpus-googlebooks.lua ist ein Modul, welches Iteratoren bereitstellt
mit denen man �ber alle ZIP-Dateien, CSV-Dateien, Zeilen oder n-Gramme
des Google-Books-Korpus iterieren kann. Das Skript gbc.lua ist
ausf�hrbar und enth�lt nur zwei Zeilen. Es muss mit texlua aufgerufen
werden:
>texlua gbc.lua > gbc.txt
Das Skript l�uft auf einem 2,7-GHz-Sempron etwa eine halbe Stunde. Die
entstehende Wortliste hat eine Gr��e von 64.457.888 Bytes (mit
DOS-Zeilenenden) und besteht aus 3.685.341 Zeilen.
Falls man Lua statt texlua verwenden m�chte, muss man im Modul
corpus-googlebooks.lua noch die Module luazip und slnunicode per require
einbinden. In texlua sind diese bereits vorhanden.
Ich werde die Skripten bei Gelegenheit ins Repositorium stellen (und um
Dokumentation erweitern).
> die wir dann im Metricalizer (www.metricalizer.de) als Wortliste f�r
> den Gedichtgenerator einsetzen k�nnten.
Die Liste muss aber noch bereinigt werden.