gutes deutsches Korpus für Layout-Analyse

31 views
Skip to first unread message

P Cooper

unread,
May 5, 2021, 9:22:14 AM5/5/21
to ADNW

Hallo zusammen! Wollte hier nur kurz fragen, ob jemand das Korpus teilen könnte, das der Entwicklung von ADNW zugrundelag - oder eben ein anderes gut zusammengestelltes deutsches Korpus für einen solchen Zweck, möglichst ohne Artefakte wie E-Mail header etc.

Vielen Dank und schöne Grüße

Philipp / Keybug

Andreas

unread,
May 5, 2021, 12:06:06 PM5/5/21
to ad...@googlegroups.com
> Hallo zusammen! Wollte hier nur kurz fragen, ob jemand das Korpus teilen
> könnte, das der Entwicklung von ADNW zugrundelag - oder eben ein anderes
> gut zusammengestelltes deutsches Korpus für einen solchen Zweck, möglichst
> ohne Artefakte wie E-Mail header etc.

Leider nicht, denn zum Teil sind die Texte urheberrechtlich geschützt.
In der Anleitung sind die Quellen genannt, und einige davon sind frei
verfügbar (Project Gutenberg, Leipziger Korpus,...)

Andreas


P Cooper

unread,
May 5, 2021, 3:40:29 PM5/5/21
to ADNW
Alles klar, schade. Ich hatte gehofft, es gäbe hier vielleicht etwas, das Ian Douglas als Grundlage für eine deutsche Version seiner "Affen-Texte" (computergenerierte Zeichenketten als künstliche Texte, die genau die durchschnittliche Zeichen- und Bigramm-Häufigkeit eines Textkorpus abbilden) htte dienen können.

Andreas

unread,
May 6, 2021, 12:43:18 PM5/6/21
to ad...@googlegroups.com
> Ich hatte gehofft, es gäbe hier vielleicht etwas, das
> Ian Douglas als Grundlage für eine deutsche Version seiner "Affen-Texte"
> (computergenerierte Zeichenketten als künstliche Texte, die genau die
> durchschnittliche Zeichen- und Bigramm-Häufigkeit eines Textkorpus
> abbilden) htte dienen können.

Tabellen mit Zeichen-, Bi- und Trigrammhäufigkeiten für Deutsch und
Englisch sind beim Optimierer mit dabei. Soweit ich die Idee verstehe,
solle das für den Goethe-Emulator genügen.

Andreas
Reply all
Reply to author
Forward
0 new messages