Fragen zu herkömmlichen Mustern

6 views
Skip to first unread message

Stephan Hennig

unread,
Jun 24, 2010, 11:18:29 AM6/24/10
to trennmuster...@googlegroups.com
Hallo,

ich erstelle gerade eine ï¿œbersicht mit ein paar Zahlen zu den Trennmustern

> release_name date words patterns maxlevel maxlen good bad missed size
> _dehyphn.20071020 2007-10-20 - 11352 8*10 9*2 - - - 72205
> _dehyphn.20071223 2007-12-23 376196 12586 8*10 9*1 1085169 0 0 80669
> _dehyphn.20080601 2008-06-01 416352 14489 8*12 9*1 1216851 0 0 93808
> dehyphn-x-2008-06-18 2008-06-18 416388 14513 8*14 9*1 1216937 0 0 95518
> dehyphn-x-2009-06-19 2009-06-19 426305 14211 8*35 12*1 1261435 0 0 94188

und wï¿œrde zum Vergleich dort gern auch die herkï¿œmmlichen Muster
auffï¿œhren. Dazu mï¿œssen die Muster in eine einheitliche Form gebracht
werden (nur eine Kodierung, mᅵglichst keine Makros, Umlaute/ᅵ als
einzelne Zeichen, ein Muster pro Zeile).

Nach Lesen der Dokumentation von dehypht.tex v3.2a stellt es sich fï¿œr
mich wie folgt dar:

1. OT1-kodierte Muster werden mit dem Makro \c eingeleitet und kï¿œnnen
leicht entfernt werden.

2. Umlaute sind in Babelnotation ("a, "o", "u) gehalten und kï¿œnnen durch
die entsprechenden Zeichen ersetzt werden.

3. Das ᅵ ist als \3 kodiert.

4. Das ᅵ in Form von \9 kommt nur innerhalb von \c{...} vor und spielt
nach 1. daher keine Rolle.

5. Das Makro \n markiert Muster mit Umlauten. Das Makro kann unter
Beibehaltung des Musters entfernt werden.

Stimmt das so?

Walter, kannst du mir noch die im ï¿œlteren dokumentierten Muster
zuschicken oder im Dateibereich hochladen?

> % 1990-09-27 First version of `ghyphen3.tex' (Norbert Schwarz)
> % 1991-02-13 PC umlauts changed to ^^xx (Norbert Schwarz)
> % 1993-08-27 Umlauts/\ss changed to "a/\3 macros, added macro
> % definitions and additional logic to select correct
> % patterns/encoding (Bernd Raichle)
> % 1994-02-13 Release of `ghyph31.tex' V3.1a (Bernd Raichle)

Viele Grᅵᅵe,
Stephan Hennig

Walter Schmidt

unread,
Jun 24, 2010, 5:22:42 PM6/24/10
to trennmuster...@googlegroups.com
Am 24.06.10 17:18, schrieb Stephan Hennig:

> Walter, kannst du mir noch die im �lteren dokumentierten Muster


> zuschicken oder im Dateibereich hochladen?
>
>> % 1990-09-27 First version of `ghyphen3.tex' (Norbert Schwarz)
>> % 1991-02-13 PC umlauts changed to ^^xx (Norbert Schwarz)
>> % 1993-08-27 Umlauts/\ss changed to "a/\3 macros, added macro
>> % definitions and additional logic to select correct
>> % patterns/encoding (Bernd Raichle)
>> % 1994-02-13 Release of `ghyph31.tex' V3.1a (Bernd Raichle)

Die �ltere Versionsgeschichte habe ich selber nur abgeschrieben;
ich erinere mich nicht, die Versionen von 1993 und �lter selbst
jemals archiviert zu haben.

Wenn �berhaupt, dann habe ich die 1994er-Version noch irgendwo;
ich bitte um Geduld.

--
Walter


Stephan Hennig

unread,
Jun 25, 2010, 11:00:28 AM6/25/10
to trennmuster...@googlegroups.com

Von den in dehypht.tex erw�hnten Dateien

> % ghyphen.tex/germhyph.tex as of 1986/11/01
> % ghyphen.min/ghyphen.max as of 1988/10/10
> % ghyphen3.tex as of 1990/09/27 & 1991/02/13
> % ghyph31.tex as of 1994/02/13

finde ich

ghyph31.tex
ghyphen.min

�ber eine CTAN-Suche nach 'ghyph'. Unter
<URL:http://ftp2.debian.cz/pub/tex/local/hyphenation/patterns/> finden
sich dann noch die beiden Dateien

ghyphen.max
ghyphen3.tex

Das reicht erst einmal.

Ist die von mir zuvor beschriebene Vorgehensweise zur Bereinigung der
Muster in Ordnung?

Viele Gr��e,
Stephan Hennig

Stephan Hennig

unread,
Jun 25, 2010, 5:38:35 PM6/25/10
to trennmuster...@googlegroups.com
Am 25.06.2010 17:00, schrieb Stephan Hennig:

> Von den in dehypht.tex erw�hnten Dateien
>
> > % ghyphen.tex/germhyph.tex as of 1986/11/01
> > % ghyphen.min/ghyphen.max as of 1988/10/10

> > % ghyphen3.tex as of 1990/09/27& 1991/02/13


> > % ghyph31.tex as of 1994/02/13
>
> finde ich
>
> ghyph31.tex
> ghyphen.min
>
> �ber eine CTAN-Suche nach 'ghyph'. Unter
> <URL:http://ftp2.debian.cz/pub/tex/local/hyphenation/patterns/> finden
> sich dann noch die beiden Dateien
>
> ghyphen.max
> ghyphen3.tex

ghyphen.tex gibt's unter
<URL:http://www.uic.edu/depts/accc/software/tex/miscfiles/ghyphen.tex>.

September 1983!

Stephan Hennig

unread,
Jun 26, 2010, 3:59:58 AM6/26/10
to trennmuster...@googlegroups.com
Am 25.06.2010 23:38, schrieb Stephan Hennig:

> ghyphen.tex gibt's unter
> <URL:http://www.uic.edu/depts/accc/software/tex/miscfiles/ghyphen.tex>.
>
> September 1983!

Und hier sind jene Muster dokumentiert.

<URL:http://tug.org/TUGboat/Articles/tb05-2/tb10schulze.pdf>

Die angesprochene Datei ghyphenu.tex gibt es auch unter dem oben
angegebenen Link. Die Muster von 1983 basieren auf einer Wortliste mit
�ber 127000 W�rtern. Ich plane, alle alten Muster auch mal auf die
jetzige Wortliste loszulassen, um die Fehlerquote zu vergleichen. Hier
mal die bisherigen aktuellen Zahlen f�r die traditionellen Muster. Wem
noch andere Muster bekannt sind, kann sie mir gerne schicken.

> release_name date words good bad missed patterns maxlevel maxlen size
> =ghyphen.tex 1983-09-08 - - - - 5526 6*30 23*1 35274
> ghyphenu.tex 1983-09-08 127000 - - - 6082 6*34 23*1 37932
> =ghyphen.min 1988-10-10 - - - - 4067 8*84 8*2 25666
> =ghyphen.max 1988-10-10 - - - - 7007 8*1922 7*70 45720
> ghyphen3.tex 1990-09-27 - - - - 5719 8*1010 7*24 36207
> ghyph31.tex 1994-02-13 - - - - 5719 8*1010 7*24 36207
> gerhyph.tex 1997-01-29 - - - - 5719 8*1010 7*24 36207
> dehypht.tex 1999-03-03 - - - - 5719 8*1010 7*24 36207
> _dehypht.20071223 2007-12-23 380050 1089090 3 3 12470 8*19 9*4 80053
> _dehypht.20080601 2008-06-01 420220 1220173 0 0 14293 8*17 9*2 92728
> dehypht-x-2008-06-18 2008-06-18 420235 1220214 0 0 14309 8*19 9*2 94432
> dehypht-x-2009-06-19 2009-06-19 430578 1266077 0 0 14379 8*63 13*1 95921


> ************************
> *** Legend ***
> ************************
>
> release_name pattern file name
> date pattern generation date
> words number of words in the word list fed into patgen
> (varies for traditional/reformed/swiss spelling)
> good number of true hyphenations found (patgen output)
> bad number of false hyphenations found (patgen output)
> missed number of hyphenations missed (patgen output)
> patterns number of patterns in pattern file
> maxlevel maximum level used by patgen (level*counter)
> maxlen maximum pattern length without level numbers (len*counter)
> size pattern file size (pure patterns, one pattern per line)
>
>
> ************************
> *** Notes ***
> ************************
>
> * The numbers refer to normalized patterns:
> + pure patterns (no comments etc.),
> + one pattern per line,
> + no pattern copies for different output encodings,
> + no short-cuts ("a, a6", ^^e4, \3 etc.),
> + no macros.
> Note, pattern encoding changed in the 2008-06-18 release.
>
> * Releases with a name beginning with an equal sign = don't provide umlaut
> nor sharp-s support.
>
> * Releases with a name beginning with an underscore _ are internal releases.
>
> * 2007-10-20: First release of experimental patterns. Older pattern files
> are not maintained by this project.
>
> * 2008-06-18: Pattern encoding changed from ISO-8859-1 to UTF-8.
>
> * 2009-06-19: Patgen parameters have been changed.

Walter Schmidt

unread,
Jun 26, 2010, 12:30:47 PM6/26/10
to trennmuster...@googlegroups.com
Am 24.06.10 23:22, schrieb Walter Schmidt:

>>> % 1990-09-27 First version of `ghyphen3.tex' (Norbert Schwarz)
>>> % 1991-02-13 PC umlauts changed to ^^xx (Norbert Schwarz)
>>> % 1993-08-27 Umlauts/\ss changed to "a/\3 macros, added macro
>>> % definitions and additional logic to select correct
>>> % patterns/encoding (Bernd Raichle)
>>> % 1994-02-13 Release of `ghyph31.tex' V3.1a (Bernd Raichle)

> [...]


> Wenn �berhaupt, dann habe ich die 1994er-Version noch irgendwo;

Sorry, ich muss euch entt�uschen:

Die �lteste hier vorhandene CTAN-CD ist von 1999, und da ist bereits

`dehypht.tex' as of 03 March 1999

enthalten, also der letzte Stand der alten Rechtschreibung.

Und mein privates Archiv mit den �lteren Sachen ist 2006 beim Crash
meines PCs und/oder beim darauffolgenden Umzug auf Mac untergegangen.

Gru�
Walter

Bernhard Tempel

unread,
Jun 26, 2010, 1:14:54 PM6/26/10
to trennmuster...@googlegroups.com
Am 26.06.2010 18:30, schrieb Walter Schmidt:
> Sorry, ich muss euch enttäuschen:
>
> Die älteste hier vorhandene CTAN-CD ist von 1999, und da ist bereits

>
> `dehypht.tex' as of 03 March 1999
>
> enthalten, also der letzte Stand der alten Rechtschreibung.

In der TIB/UB gibt es eine CTAN-CD von 1996 oder etwas früher
(http://opac.tib.uni-hannover.de/DB=1/CMD?ACT=SRCHA&SRT=YOP&IKT=1016&TRM=ppn+192169572).
Bei Bedarf kann ich gern Anfang nächster Woche mal nachsehen, was da an
Trennmustern enthalten ist.

Schöne Grüße,

Bernhard Tempel

--
Bernhard Tempel
Rumannstr. 5
30161 Hannover

http://www.tempelb.de

Stephan Hennig

unread,
Jun 28, 2010, 5:42:46 AM6/28/10
to trennmuster...@googlegroups.com
Am 26.06.2010 19:14, schrieb Bernhard Tempel:

> In der TIB/UB gibt es eine CTAN-CD von 1996 oder etwas fr�her
> (http://opac.tib.uni-hannover.de/DB=1/CMD?ACT=SRCHA&SRT=YOP&IKT=1016&TRM=ppn+192169572).
> Bei Bedarf kann ich gern Anfang n�chster Woche mal nachsehen, was da an
> Trennmustern enthalten ist.

Ja, bitte!

Bernhard Tempel

unread,
Jun 28, 2010, 1:26:22 PM6/28/10
to trennmuster...@googlegroups.com
Hallo Stephan,

Am 28.06.2010 11:42, schrieb Stephan Hennig:
> Am 26.06.2010 19:14, schrieb Bernhard Tempel:
>

>> In der TIB/UB gibt es eine CTAN-CD von 1996 oder etwas früher
>> (http://opac.tib.uni-hannover.de/DB=1/CMD?ACT=SRCHA&SRT=YOP&IKT=1016&TRM=ppn+192169572).
>> Bei Bedarf kann ich gern Anfang nächster Woche mal nachsehen, was da an


>> Trennmustern enthalten ist.
>
> Ja, bitte!
>

neben einigen Trennmusterdateien, die Du schon hast, finde ich auf dem
CTAN-Abzug von Oktober 1995 noch eine Datei germanhyph.tex (auch als
germanhy.tex) vom 1.11.1986 mit 2769 Trennmustern.

% These are optimized german hyphenation patterns for use with TeX
% generated at
% Rechenzentrum Ruhr-Universitaet Bochum
% Universitaetsstrasse 150
% D-4630 Bochum 1
% as of 1986-11-01.
% Copyright Rechenzentrum der Ruhr-Universitaet Bochum 1986
% General permission for non-profit use is granted.
% For commercial use, contact the above address.

Ich hänge die Datei an und hoffe, daß die Liste Anhänge nicht verschluckt.
Sonst bitte eine E-Mail-Adresse nennen, an die ich sie schicken soll. Ich
könnte auch das Inhaltsverzeichnis der CD-ROM schicken (ca. 3 MB), meine aber,
alles, was nach deutschen Trennmustern aussah, herausgefischt zu haben (sofern
Dateiname "hyph" enthielt und Dateiname oder Verzeichnisstruktur einen Hinweis
auf Deutsch enthielt), als da wären:

ghyphen.min, 1988-10-10

gerhyph.tex (ghyphenu.tex), 1990-09-27 ("coding was modified Feb. 1991")

ghyphen3.tex, 1990-09-27 ("(PC umlauts changed to ^^xx, 1991-02-13)")

ghyph31.tex, Version 3.1a von 1994-02-13

Schöne Grüße,

Bernhard

--
http://www.tempelb.de

germanhyph.tex

Stephan Hennig

unread,
Jun 29, 2010, 7:06:56 AM6/29/10
to trennmuster...@googlegroups.com
Hallo Bernhard,

Am 28.06.2010 19:26, schrieb Bernhard Tempel:

> neben einigen Trennmusterdateien, die Du schon hast, finde ich auf dem
> CTAN-Abzug von Oktober 1995 noch eine Datei germanhyph.tex (auch als
> germanhy.tex) vom 1.11.1986 mit 2769 Trennmustern.

Die haben noch gefehlt! In dehypht.tex sind am Anfang und am Ende
einige alte Musterdateien erw�hnt, die von 1986 aber als germhyph.tex.
Eines Datei dieses Namens habe ich im Netz nicht finden k�nnen. Jetzt
scheine ich alle traditionellen Muster zu haben. Vielen Dank!


> ghyphen.min, 1988-10-10
>
> gerhyph.tex (ghyphenu.tex), 1990-09-27 ("coding was modified Feb. 1991")
>
> ghyphen3.tex, 1990-09-27 ("(PC umlauts changed to ^^xx, 1991-02-13)")
>
> ghyph31.tex, Version 3.1a von 1994-02-13

Die habe ich alle.

Reply all
Reply to author
Forward
0 new messages