Automatische Silbensegmentierungen

9 views
Skip to first unread message

Dagmar_der_Berge

unread,
Dec 7, 2010, 3:33:44 AM12/7/10
to trennmuster.org
Erst einmal hallo zusammen,

im Zuge eines Forschungsprojektes beschäftige ich mich in den letzten
Monaten mit Programmen zur automatischen Silbensegmentierung. Gerade
stelle ich einen Vergleich her zwischen einigen Produkten (Segmenti,
DIHYPH, PYHYPH) und werte anhand einer 150.000 Wörter umfassenden
Liste aus, wie sich diese Produkte unterscheiden. Ausgangslage ist
eine Wortliste, für die ich auch phonetische Umschriften und
Sprechsilbensegmentierungen habe. Hättet ihr Lust, euch mit hier
verwendeten Algorithmus an dem Vergleich zu beteiligen? Wenn ja,
dürfte ich euch die Liste (Alte Rechtschreibung) schicken und ihr
würdet die dann durch euren Algorithmus laufen lassen. Aus rechtlichen
Gründen werde wahrscheinlich ich nicht in der Lage sein, die
kompletten Ergebnisse offenzulegen, aber es werden sicherlich
spannende Ergebnisse für alle Beteiligten herauskommen, die ich
zumindest zusammenfassend weitergeben werden kann.

Viele Grüße

Klemens Bobenhausen

Werner LEMBERG

unread,
Dec 7, 2010, 3:49:09 AM12/7/10
to trennmuster...@googlegroups.com, boben...@googlemail.com

Hallo Klemens!


Was bedeutet das merkwürdige `Dagmar der Berge'?

> im Zuge eines Forschungsprojektes beschäftige ich mich in den
> letzten Monaten mit Programmen zur automatischen
> Silbensegmentierung. Gerade stelle ich einen Vergleich her zwischen
> einigen Produkten (Segmenti, DIHYPH, PYHYPH)

Was ist mit SiSiSi?

https://www.ads.tuwien.ac.at/research/SiSiSi

> und werte anhand einer 150.000 Wörter umfassenden Liste aus, wie
> sich diese Produkte unterscheiden. Ausgangslage ist eine Wortliste,
> für die ich auch phonetische Umschriften und

> Sprechsilbensegmentierungen habe. Hättet ihr Lust, euch mit [dem]


> hier verwendeten Algorithmus an dem Vergleich zu beteiligen? Wenn
> ja, dürfte ich euch die Liste (Alte Rechtschreibung) schicken und
> ihr würdet die dann durch euren Algorithmus laufen lassen.

Aber gerne!

> Aus rechtlichen Gründen werde wahrscheinlich ich nicht in der Lage
> sein, die kompletten Ergebnisse offenzulegen, aber es werden
> sicherlich spannende Ergebnisse für alle Beteiligten herauskommen,
> die ich zumindest zusammenfassend weitergeben werden kann.

Hmm, ein Forschungsprojekt, wo nicht alles offengelegt werden kann?
Ist das militärische Auftragsforschung? Können wir endlich alle
Terroristen mit guter deutscher Silbentrennung erledigen?


Werner

Dagmar_der_Berge

unread,
Dec 7, 2010, 8:22:18 AM12/7/10
to trennmuster.org
Hallo Werner,

Das Dagmar der Berge ist ein Nick, den ich mir irgendwann zugelegt
hatte. Ich werde versuchen, das zu ändern, zumindest im Kontext von
trennmuster.org.

SiSiSi habe ich ebenfalls abgeschrieben, aber noch keine Antwort. Ich
denke, Herr Schönhacker wird sich noch melden. Allerdings war bei
SiSiSi früher das Problem, dass der Algorithmus manche Wörter einfach
nicht behandelte – was eine Vergleichbarkeit der Daten dann erschweren
würde. Kann aber auch sein, dass das heute anders ist oder die Demo-
Version, die ich benutzt habe, nur eingeschränkte Funktionalität
besaß.

In einer privaten Mail schicke ich Dir die genannte Wortliste mit der
Bitte, diese nach der Neuen und Alten Rechtschreibung zu segmentieren.
Ginge das? Vielen Dank!

Wie Du weißt, sind DIHYPH und Segmenti nicht offen. Ich bin sehr froh,
dass ich von beiden die Daten erhalten kann, verfüge aber noch nicht
über eine Genehmigung, diese Daten im vollen Umfang zu publizieren.
Ich werde mich natürlich darum bemühen, schon alleine deshalb, da aus
dem Vergleich sehr tolle Ergebnisse zu erwarten sind, die man einfach
offenlegen sollte.

Viele Grüße

Klemens
Reply all
Reply to author
Forward
0 new messages