Typographisch "schöne" Trennungen bevorzugen?

Christoph Stracke

unread,

Sep 6, 2011, 12:53:58 PM9/6/11

to

Liebe TeX-Gemeinde,

in einem älteren Handbuch für Schriftsetzer habe ich kürzlich gelesen,
daß man – obwohl orthographisch erlaubt – bei gutem Textsatz Trennungen
von nur zwei oder drei Buchstaben unbedingt vermeiden sollte (wie in
Bu-ße, An-ker, Städ-te, Hak-ke usw.); desweiteren sollte man
zusammengesetzte Wörter, wenn irgend möglich, entweder nur an ihrer
Wortfuge trennen oder nach/vor bestimmten Vor- und Nachsilben (z.B.
zusammen-gehörig, Druck-erzeugnis, Vor-silbe, auf-sitzen, Mäd-chen,
Annehmlich-keit).

Meine erste Frage dazu: Ist es möglich, bei TeX (in meinem Fall:
XeLaTeX) Strafpunkte für das Abtrennen "zu weniger" Buchstaben zu
vergeben?

Beispielsweise das Wort "Gartenpflege":
Trennung als
Gar-tenpflege: penalty=100,
Garten-pflege: penalty=50
und
Gartenpfle-ge: penalty=500.

Desweiteren: Ist es möglich, an irgendeiner Stelle (analog zu dem
Befehl \hyphenation) Vor- oder Nachsilben zu definieren, die, wenn sie
in einem Wort auftauchen, bei der Trennung stets bevorzugt werden sollen
und durch diese Trennung weniger Strafpunkte erzielen als eine Trennung
an anderer Stelle?

Beispielsweise bevorzugt nach den Silben "auf-, nach-, zu-, vor-, her-,
hin-" usw. und vor den Silben "-keit, -heit, -lei, -lich, -nis, -tei,
-ung" zu trennen?

Leider bin ich durch Googlen nicht fündig geworden und vermute eher,
daß es nicht geht. In dem Fall wäre es aber eine Anregung für zukünftige
Entwicklungen. :-)

Denn die Alternative hieße ja, an unzählig vielen Stellen manuelle "\-"
Trennungen einzufügen bzw. bei potentiellen unerwünschten Trennungen
Konstruktionen wie "Straf\mbox{punkte}" zu bauen. Dagegen wäre eine
Regelung über den Penalty-Mechanismus ja ungleich eleganter und
flexibler ...

Viele Grüße
Christoph

Stephan Hennig

unread,

Sep 6, 2011, 2:38:42 PM9/6/11

to

schrieb Christoph Stracke:

> in einem ï¿½lteren Handbuch fï¿½r Schriftsetzer habe ich kï¿½rzlich
> gelesen, daï¿½ man ï¿½ obwohl orthographisch erlaubt ï¿½ bei gutem Textsatz

> Trennungen von nur zwei oder drei Buchstaben unbedingt vermeiden

> sollte (wie in Bu-ï¿½e, An-ker, Stï¿½d-te, Hak-ke usw.);

Man kann Mindestlï¿½ngen fï¿½r abgetrennte Wortteile angeben mit
\lefthyphenmin=4 und \righthyphenmin=4 oder, unter Verwendung von Babel, mit

\renewcommand*{\ngermanhyphenmins}{44}
\selectlanguage{ngerman}

und analog fï¿½r die traditionelle Rechtschreibung.

> desweiteren sollte man zusammengesetzte Wï¿½rter, wenn irgend mï¿½glich,

> entweder nur an ihrer Wortfuge trennen oder nach/vor bestimmten Vor-

> und Nachsilben (z.B. zusammen-gehï¿½rig, Druck-erzeugnis, Vor-silbe,
> auf-sitzen, Mï¿½d-chen, Annehmlich-keit).
>
> Meine erste Frage dazu: Ist es mï¿½glich, bei TeX (in meinem Fall:
> XeLaTeX) Strafpunkte fï¿½r das Abtrennen "zu weniger" Buchstaben zu
> vergeben?

In traditionellem TeX sind Trennstellen entweder zulï¿½ssig oder nicht.
Wo eine zulï¿½ssige Trennstelle liegt, spielt dabei keine Rolle. TeX
achtet darauf nicht.

> Beispielsweise das Wort "Gartenpflege":
> Trennung als
> Gar-tenpflege: penalty=100,
> Garten-pflege: penalty=50
> und
> Gartenpfle-ge: penalty=500.

Wie sollte mit der Schlangenei-ermarmelade verfahren werden?
Selbstverstï¿½ndlich sollte erkannt werden, dass es sich um ein
zusammengesetztes Wort mit den Haupttrennstellen
Schlangen-eier-marmelade handelt und die Trennung ...ei-er... als "zu
dicht" an einer Haupttrennstelle eingestuft werden. Das ist jedoch weit
jenseits dessen, was mit TeX derzeit mï¿½glich ist.

Mï¿½glicherweise ï¿½ndert sich das mit LuaTeX. Laut Plan soll LuaTeX
irgendwann mit gewichteten Trennstellen (unterschiedlichen \penalties)
umgehen kï¿½nnen, <URL:http://tracker.luatex.org/view.php?id=168>. In der
Praxis sï¿½he das dann so aus, dass es eigene Trennmuster fï¿½r jedes
Trennstellengewicht gibt, also zum Beispiel fï¿½r Trennungen nur an
Haupttrennstellen, an bevorzugten Stellen wie Vor- oder Nachsilben usw.
Ein Wort wird dann gegen diese verschiedenen Trennmuster geprï¿½ft und
das Gewicht einer Trennstelle ergibt sich aus dem hï¿½chsten zutreffenden
Gewicht. Die Gewichte der gewï¿½hlten Trennstellen gehen dann beim
Absatzumbruch in den Missratenheitswert ein.

Neben der Arbeit an LuaTeX, mï¿½ssen auch diese entsprechenden Trennmuster
erst einmal erstellt werden. Es gibt dazu Planungen im
Trennmusterprojekt, <URL:http://projekte.dante.de/Trennmuster>.

Mit etwas Glï¿½ck wird es mit LuaTeX und entsprechenden Mustern in Zukunft
auch mï¿½glich sein, auf Auszeichnungen im Quelltext fï¿½r Spezialtrennungen
(non-standard hyphenation, ck- und Dreikonsonantenregel), (falsche)
Ligaturen, und das Rund-s in gebrochener Schrift zu verzichten.
Vermutlich wird das alles aber noch eine Weile dauern.

> Desweiteren: Ist es mï¿½glich, an irgendeiner Stelle (analog zu dem

> Befehl \hyphenation) Vor- oder Nachsilben zu definieren, die, wenn
> sie in einem Wort auftauchen, bei der Trennung stets bevorzugt werden
> sollen und durch diese Trennung weniger Strafpunkte erzielen als eine
> Trennung an anderer Stelle?
>
> Beispielsweise bevorzugt nach den Silben "auf-, nach-, zu-, vor-,
> her-, hin-" usw. und vor den Silben "-keit, -heit, -lei, -lich, -nis,
> -tei, -ung" zu trennen?

Wie oben beschrieben, wird es vermutlich Trennmuster geben, die solche
Vor- und Nachsilben erkennen. Neben der musterbasierten Trennung wird
LuaTeX mï¿½glicherweise auch eine regelbasierte Trennung bekommen
(Stichworte Lua und LPEG). Ich denke allerdings, dass sich das fï¿½r
deutsche Texte eher nicht eignen wï¿½rde. Wie sollte eine Regel aussehen
die zwischen 'auf' in 'Sammelaufgabe' und 'haufenweise' unterscheiden
kann, ohne ein komplettes Wï¿½rterbuch mitzuschleppen?

Also alles Zukunftsmusik. Bis dahin kannst du dir aber mal das Paket
dehyph-exptl ansehen, welches verbesserte Trennmuster fï¿½r den
herkï¿½mmlichen Trennalgorithmus enthï¿½lt.

Viele Grï¿½ï¿½e
Stephan Hennig

PS: Falls jemand weiï¿½, wie man dem Duden-Korrektor (erhï¿½ltlich fï¿½r MS
Office, OpenOffice, InDesign oder FrameMaker) alle Trennungen fï¿½r alle
Wï¿½rter eines Textes entlocken kann, bitte hier oder auf der Mailingliste
des Trennmusterprojekts melden!

Christoph Stracke

unread,

Sep 6, 2011, 6:20:08 PM9/6/11

to

Stephan Hennig <stepha...@nospam.arcornews.de> schrieb:

> Man kann Mindestlängen für abgetrennte Wortteile angeben mit

> \lefthyphenmin=4 und \righthyphenmin=4 oder, unter Verwendung von
> Babel, mit
>
> \renewcommand*{\ngermanhyphenmins}{44}
> \selectlanguage{ngerman}
>

> und analog für die traditionelle Rechtschreibung.

Hallo Stephan,

super, das hilft mir schon gut weiter!
>
> In traditionellem TeX sind Trennstellen entweder zulässig oder nicht.
> Wo eine zulässige Trennstelle liegt, spielt dabei keine Rolle. TeX
> achtet darauf nicht.
> [...]
> Möglicherweise ändert sich das mit LuaTeX. Laut Plan soll LuaTeX

> irgendwann mit gewichteten Trennstellen (unterschiedlichen \penalties)

> umgehen können, <URL:http://tracker.luatex.org/view.php?id=168>. In
> der Praxis sähe das dann so aus, dass es eigene Trennmuster für jedes
> Trennstellengewicht gibt, also zum Beispiel für Trennungen nur an

> Haupttrennstellen, an bevorzugten Stellen wie Vor- oder Nachsilben

> usw. Ein Wort wird dann gegen diese verschiedenen Trennmuster geprüft
> und das Gewicht einer Trennstelle ergibt sich aus dem höchsten
> zutreffenden Gewicht. Die Gewichte der gewählten Trennstellen gehen

> dann beim Absatzumbruch in den Missratenheitswert ein.

Ja, das wäre ziemlich genau das, was ich mir vorgestellt hatte. Ich
hätte nicht gedacht, daß meine Ideen so sehr "edge of the art" sind. ;-)

> Neben der Arbeit an LuaTeX, müssen auch diese entsprechenden

> Trennmuster erst einmal erstellt werden. Es gibt dazu Planungen im
> Trennmusterprojekt, <URL:http://projekte.dante.de/Trennmuster>.
>

> Mit etwas Glück wird es mit LuaTeX und entsprechenden Mustern in
> Zukunft auch möglich sein, auf Auszeichnungen im Quelltext für

> Spezialtrennungen (non-standard hyphenation, ck- und
> Dreikonsonantenregel), (falsche) Ligaturen, und das Rund-s in
> gebrochener Schrift zu verzichten. Vermutlich wird das alles aber
> noch eine Weile dauern.

Das wäre natürlich perfekt! Rein zufällig handelt es sich bei dem Text,
den ich gerade setze, nämlich um Mengensatz in gebrochener Schrift und
in traditioneller Rechtschreibung, d.h. mit ck -> k-k-Trennung. Da ist
schon so einiges an Steuerelementen nötig, damit die Ausgabe vernünftig
wird. (Aber glücklicherweise hat der vim ja sehr gute
Suchen/Ersetzen-Möglichkeiten :-) ).

>
> > Beispielsweise bevorzugt nach den Silben "auf-, nach-, zu-, vor-,
> > her-, hin-" usw. und vor den Silben "-keit, -heit, -lei, -lich,
> > -nis, -tei, -ung" zu trennen?
>
> Wie oben beschrieben, wird es vermutlich Trennmuster geben, die solche
> Vor- und Nachsilben erkennen. Neben der musterbasierten Trennung wird

> LuaTeX möglicherweise auch eine regelbasierte Trennung bekommen
> (Stichworte Lua und LPEG). Ich denke allerdings, dass sich das für
> deutsche Texte eher nicht eignen würde. Wie sollte eine Regel

> aussehen die zwischen 'auf' in 'Sammelaufgabe' und 'haufenweise'

> unterscheiden kann, ohne ein komplettes Wörterbuch mitzuschleppen?

Stimmt; "haufenweise" ist natürlich ein Beispiel, bei dem es vermutlich
schwer würde. Es könnte möglicherweise zunächst auf "haufen-" überprüft
werden, und wenn die Regel greift, wird "auf" nicht mehr abgefragt.
Aber das ist nur ein erster Gedanke, und mit etwas Nachdenken findet
man vermutlich genug anderer, ähnlich gelagerter Beispiele ...

> Also alles Zukunftsmusik. Bis dahin kannst du dir aber mal das Paket

> dehyph-exptl ansehen, welches verbesserte Trennmuster für den
> herkömmlichen Trennalgorithmus enthält.

Sehe ich mir gerne mal an; vielen Dank für den Tip. Ich war bislang
immer davon ausgegangen, die Trennmuster (zumindest) für die
traditionelle Rechtschreibung seien bereits komplett ausgereift. :-)

Viele Grüße
Christoph

Stephan Hennig

unread,

Sep 7, 2011, 12:26:42 PM9/7/11

to

schrieb Christoph Stracke:
> Stephan Hennig <stepha...@nospam.arcornews.de> schrieb:
>
> Ja, das w�re ziemlich genau das, was ich mir vorgestellt hatte. Ich
> h�tte nicht gedacht, da� meine Ideen so sehr "edge of the art" sind. ;-)

Sie sind. In Word 2007 kann man augenscheinlich nicht einmal
Mindestl�ngen f�r die Silbentrennung angeben. (Es sei denn, irgend eine
wichtige Komponente fehlt hier, die Silbentrennung selbst scheint aber
zu funktionieren.) Selbst das ist wohl schon Raketentechnik.

> Das w�re nat�rlich perfekt! Rein zuf�llig handelt es sich bei dem Text,
> den ich gerade setze, n�mlich um Mengensatz in gebrochener Schrift

OK. In gebrochener Schrift bietet es sich ja an, die Mindestl�ngen
heraufzusetzen. Aber wie gesagt, l�ngere zusammengesetzte W�rter
bekommt man damit nicht in den Griff.

> und in traditioneller Rechtschreibung,

Wird die Reformschreibung in der Praxis denn auch f�r gebrochene Schrift
genutzt? Ich sehe frische Drucksachen in gebrochener Schrift selten.

>> Neben der musterbasierten Trennung wird LuaTeX m�glicherweise auch

>> eine regelbasierte Trennung bekommen (Stichworte Lua und LPEG). Ich

>> denke allerdings, dass sich das f�r deutsche Texte eher nicht
>> eignen w�rde. Wie sollte eine Regel aussehen die zwischen 'auf' in

>> 'Sammelaufgabe' und 'haufenweise' unterscheiden kann, ohne ein

>> komplettes W�rterbuch mitzuschleppen?
>
> Stimmt; "haufenweise" ist nat�rlich ein Beispiel, bei dem es vermutlich
> schwer w�rde. Es k�nnte m�glicherweise zun�chst auf "haufen-" �berpr�ft

> werden, und wenn die Regel greift, wird "auf" nicht mehr abgefragt.

Auf diese Weise landet man letztlich bei Mustern. Ein kurzes f�r eine
zul�ssige Trennung, ein l�ngeres f�r eine Ausnahme (um eine falsche
Trennung zu verhindern), ein noch l�ngeres f�r eine Ausnahme von der
Ausnahme (eine wiederum zul�ssige, aber durch das letzte Muster
unterbundene Trennung) usw.

>> Bis dahin kannst du dir aber mal das Paket dehyph-exptl ansehen,

>> welches verbesserte Trennmuster f�r den herk�mmlichen
>> Trennalgorithmus enth�lt.
>
> Sehe ich mir gerne mal an; vielen Dank f�r den Tip. Ich war bislang
> immer davon ausgegangen, die Trennmuster (zumindest) f�r die

> traditionelle Rechtschreibung seien bereits komplett ausgereift. :-)

Ein sch�ner Vergleich verschiedener Trennmuster steht auch irgendwo auf
meiner Liste. WIMRE, kam ich beim letzten Vergleich der Reformmuster
(der schon einige Jahre zur�ckliegt) auf irgendwas um 20.000
Unterschiede in der Trennung. Ob da unterdr�ckte irref�hrende
Trennungen dabei waren, wei� ich allerdings nicht mehr. Die m�sste man
der Fairness halber nat�rlich herausrechnen. F�r die traditionellen
Muster sind aber mehr als 3500 Trennfehler verb�rgt,
<URL:http://mirrors.ctan.org/language/hyphenation/dehyph/dehyphtex.tex>.
Die Datei ist aber auch schon f�nf Jahre alt und wird wohl nicht mehr
gepflegt. Das hei�t, wenn jemand mitmachen m�chte ... In einem Umfeld,
in dem man auf die experimentellen Trennmuster nicht zugreifen kann,
w�ren solche Ausnahmelisten schon sinnvoll.

Viele Gr��e
Stephan Hennig

Stephan Hennig

unread,

Sep 7, 2011, 12:29:00 PM9/7/11

to

schrieb Stephan Hennig:

> In der Praxis s�he das dann so aus, dass es eigene Trennmuster f�r
> jedes Trennstellengewicht gibt, also zum Beispiel f�r Trennungen nur

> an Haupttrennstellen, an bevorzugten Stellen wie Vor- oder Nachsilben

> usw. Ein Wort wird dann gegen diese verschiedenen Trennmuster gepr�ft
> und das Gewicht einer Trennstelle ergibt sich aus dem h�chsten
> zutreffenden Gewicht.

Ich muss mich berichtigen. Das Gewicht einer Trennstelle ergibt sich
nicht aus der h�chsten Gewicht, sondern wird �ber einen zweiten mit
einem Trennmustersatz verkn�pften Parameter bestimmt. Neben dem Gewicht
gibt es auch noch einen Priorit�tswert, der dar�ber entscheidet, welcher
Gewichtswert schlie�lich verwendet wird. Vermischt man beides
(Konfliktl�sung und Trenngewicht), handelt man sich blo� Probleme ein.
Dies entspricht in etwa dem letzten Vorschlag, den ich Taco geschickt
habe. Wie das Verfahren schlie�lich aussieht, steht aber noch nicht fest.

Herbert Voss

unread,

Sep 7, 2011, 12:48:44 PM9/7/11

to

Am 06.09.2011 18:53, schrieb Christoph Stracke:
>
> Liebe TeX-Gemeinde,
>
> in einem älteren Handbuch für Schriftsetzer habe ich kürzlich gelesen,
> daß man – obwohl orthographisch erlaubt – bei gutem Textsatz Trennungen
> von nur zwei oder drei Buchstaben unbedingt vermeiden sollte (wie in
> Bu-ße, An-ker, Städ-te, Hak-ke usw.); desweiteren sollte man
> zusammengesetzte Wörter, wenn irgend möglich, entweder nur an ihrer
> Wortfuge trennen oder nach/vor bestimmten Vor- und Nachsilben (z.B.
> zusammen-gehörig, Druck-erzeugnis, Vor-silbe, auf-sitzen, Mäd-chen,
> Annehmlich-keit).
>
> Meine erste Frage dazu: Ist es möglich, bei TeX (in meinem Fall:
> XeLaTeX) Strafpunkte für das Abtrennen "zu weniger" Buchstaben zu
> vergeben?

Es gab mal das Projekt SiSiSi
"Sichere sinnentsprechende Silbentrennung für die deutsche Sprache"
https://www.ads.tuwien.ac.at/research/SiSiSi/

Einen letzten Stand an Dateien sollte auf CTAN liegen.
Ein fertiges TeX-Dokument wird mittels Skriptsprache
vorab "getrennt", indem die sogenannten Haupttrennstellen,
beispilesweise "Polizei\-auto", vorgegeben werden. TeX kann dann nur
dort oder gar nicht trennen.

Herbert

Christoph Stracke

unread,

Sep 10, 2011, 4:50:06 PM9/10/11

to

Stephan Hennig <stepha...@nospam.arcornews.de> schrieb:

> Wird die Reformschreibung in der Praxis denn auch für gebrochene

> Schrift genutzt? Ich sehe frische Drucksachen in gebrochener Schrift
> selten.

Ich auch. Genauer gesagt: Leider so gut wie nie. Aber ich setze gerade
tatsächlich ein komplettes Buch in Fraktur. Glücklicherweise in
traditioneller Rechtschreibung; dadurch werden Ungetüme wie
"Schluſs" (statt Schluß) oder "biſschen" (statt bißchen) vermieden. :-)

Ist allerdings eine Auftragsarbeit, darum kann ich dazu leider nicht
mehr sagen.

Der Krieg tobt im Frakturlager aber meines Wissens genauso wie in der
Antiqua-Welt: Siehe
http://unifraktur.sourceforge.net/unifraktur-forum/viewtopic.php?f=8&t=63

;-)

> Ein schöner Vergleich verschiedener Trennmuster steht auch irgendwo

> auf meiner Liste. WIMRE, kam ich beim letzten Vergleich der

> Reformmuster (der schon einige Jahre zurückliegt) auf irgendwas um
> 20.000 Unterschiede in der Trennung. Ob da unterdrückte irreführende
> Trennungen dabei waren, weiß ich allerdings nicht mehr. Die müsste
> man der Fairness halber natürlich herausrechnen. Für die
> traditionellen Muster sind aber mehr als 3500 Trennfehler verbürgt,
> <URL:http://mirrors.ctan.org/language/hyphenation/dehyph/dehyphtex.tex>.
> Die Datei ist aber auch schon fünf Jahre alt und wird wohl nicht mehr
> gepflegt. Das heißt, wenn jemand mitmachen möchte ... In einem

> Umfeld, in dem man auf die experimentellen Trennmuster nicht

> zugreifen kann, wären solche Ausnahmelisten schon sinnvoll.

Die Liste ist ja erschreckend!
Aber für diese Aufgabe sehe ich mich leider derzeit weder fachlich noch
organisatorisch in der Lage ...

Viele Grüße
Christoph

Christoph Stracke

unread,

Sep 10, 2011, 5:02:40 PM9/10/11

to

Herbert Voss <Herber...@alumni.tu-berlin.de> schrieb:

> Es gab mal das Projekt SiSiSi
> "Sichere sinnentsprechende Silbentrennung für die deutsche Sprache"
> https://www.ads.tuwien.ac.at/research/SiSiSi/
>
> Einen letzten Stand an Dateien sollte auf CTAN liegen.
> Ein fertiges TeX-Dokument wird mittels Skriptsprache
> vorab "getrennt", indem die sogenannten Haupttrennstellen,
> beispilesweise "Polizei\-auto", vorgegeben werden. TeX kann dann nur
> dort oder gar nicht trennen.

Interessantes Projekt. Derzeit mache ich ungefähr das manuell, indem
ich die Dokumente quer\-lese und von TeX gewählte "unmögliche" (d.h.
nicht sinn\-entsprechende) Trenn\-stellen ent\-sprechend markiere.

Aber genau um das \emph{nicht} machen zu müssen, hatte ich mich ja vor
Jahren mal für (La)TeX entschieden ... :-)

Viele Grüße
Christoph

Axel Berger

unread,

Sep 10, 2011, 9:07:00 PM9/10/11

to

Christoph Stracke wrote on Sat, 11-09-10 23:02:
>Aber genau um das \emph{nicht} machen zu m?Pilcssen, hatte ich mich ja vor
>Jahren mal f?Pilcr (La)TeX entschieden ... :-)

Meines Erachtens w�re es schon eine gro�e Hilfe, im Draft-Modus nicht
nur Zeilen�ber- und -unterschreitungen sondern auch alle Trennungen
deutlich zu markieren. Geht das irgendwie?