Format der Wortliste

8 views
Skip to first unread message

Stephan Hennig

unread,
Mar 5, 2010, 9:58:45 AM3/5/10
to trennmuster...@googlegroups.com, Werner LEMBERG
Hi,

die ck- und die Dreikonsonantenregel sind in der Wortliste derzeit wie
folgt kodiert:

{ck/k-k}
{ff/ff-f}
{ll/ll-l}
usw.

Ich halte das fï¿œr reichlich redundant, es "verbraucht" drei
Sonderzeichen und verschlechtert die Leserlichkeit der Wortliste. Ebenso
eindeutig wï¿œre eine Kodierung als

"ck
"ff
"ll
usw.

in Anlehnung an Babel. Das wï¿œrde mit einem Sonderzeichen auskommen und
dï¿œrfte fï¿œr die meisten LaTeX-Benutzer eine gewohnte Auszeichnung sein.

Ebenso sollten wir uns auf eine Auszeichnung fï¿œr Ligaturen und das
Rund-s in gebrochenen Schriften einigen. Fï¿œr Ligaturen schlage ich
wieder in Anlehnung an Babel den senkrechten Strich | (Kode 124) vor.
Was genau damit markiert wird, echte oder falche Ligaturen, die Stelle
vor, zwischen oder nach den betreffenden Zeichen, darauf hat Taco sich
noch nicht festgelegt. Einarbeiten kï¿œnnen wir Ligaturen in unsere
Wortliste daher noch nicht.

Fï¿œr das Rund-s in gebrochenen Schriften sind mir die Konventionen s+ und
s: in LaTeX bekannt. Ich schlage dagegen die Tilde ~ (Kode 126) vor,
die hat eine gewisse ï¿œhnlichkeit mit einem runden s. Auch hier ist noch
nicht klar, ob die Muster die Stelle vor oder nach dem s Markieren
sollen. Fï¿œr unsere Liste spielt das aber keine Rolle, es lieï¿œen sich
immer beide Varianten fï¿œr die Muster ableiten. Ich bin bei den
Varianten recht unentschieden

Lo-ga-rith-mus~
Glas~=schei-be

Lo-ga-rith-mu~s
Gla~s=schei-be

Die erste Variante sieht zwar etwas weniger durcheinander aus, ich bin
mir aber nicht sicher, ob die stï¿œrkere Auffï¿œlligkeit in der zweiten
Variante nicht eher von Vorteil ist. Was meint ihr?

Viele Grᅵᅵe,
Stephan Hennig

Werner LEMBERG

unread,
Mar 5, 2010, 11:00:17 AM3/5/10
to stepha...@arcor.de, trennmuster...@googlegroups.com
> die ck- und die Dreikonsonantenregel sind in der Wortliste derzeit
> wie folgt kodiert:
>
> {ck/k-k}
> {ff/ff-f}
> {ll/ll-l}
> usw.
>
> Ich halte das für reichlich redundant,

Hmm. Ich finde ein einheitliches Format, also {.../...} und [.../...]
nicht soo unleserlich.

> es "verbraucht" drei Sonderzeichen und verschlechtert die
> Leserlichkeit der Wortliste. Ebenso eindeutig wäre eine Kodierung
> als
>
> "ck
> "ff
> "ll
> usw.
>
> in Anlehnung an Babel. Das würde mit einem Sonderzeichen auskommen
> und dürfte für die meisten LaTeX-Benutzer eine gewohnte Auszeichnung
> sein.

Wer will, kann ein Skript schreiben und die Daten entsprechend
konvertieren. Im Endeffekt ist die »wortliste«-Datei nicht etwas, das
direkt angeschaut werden sollte. Ich betrachte es eher als eine
Datenbank.

> Für Ligaturen schlage ich wieder in Anlehnung an Babel den
> senkrechten Strich | (Kode 124) vor.

Nein, das will ich für gewichtete Trennstellen verwenden (siehe den
Haupttrennstellen-Zweig, an dem ich zuletzt in der Regel gearbeitet
habe).

Ich verstehe nicht ganz, wozu man Ligaturen überhaupt markieren soll.
An einer »zusammengesetzten« Trennstelle geht's nicht, ansonsten
schon. Habe ich da was übersehen?

> Für das Rund-s in gebrochenen Schriften sind mir die Konventionen s+
> und s: in LaTeX bekannt.

Auch das will ich nicht wirklich. Sobald sich jemand findet, der
ernsthaft das Rund-s in die Liste einarbeiten will – ich nehme mal an,
das betrifft nur die Muster der alten Rechtschreibung –, konvertiere
ich das ganze einfach nach Unicode, und wir verwenden »ſ« direkt.
Genauso stört es mich wie bei {.../...} nicht, daß es für manche nicht
leserlich genug ist, da eine Konversion in eine andere Repräsentation
trivial ist.


Werner

Stephan Hennig

unread,
Mar 6, 2010, 6:32:35 AM3/6/10
to trennmuster...@googlegroups.com, Werner LEMBERG
Am 05.03.2010 17:00, schrieb Werner LEMBERG:

>> "ck
>> "ff
>> "ll
>> usw.
>>
>> in Anlehnung an Babel. Das würde mit einem Sonderzeichen auskommen
>> und dürfte für die meisten LaTeX-Benutzer eine gewohnte Auszeichnung
>> sein.
>
> Wer will, kann ein Skript schreiben und die Daten entsprechend
> konvertieren.

Das ist mir klar. Deswegen soll es mir dann auch egal sein. Falls die
Sonderzeichen ausgehen, weißt du aber wo gespart werden kann. :)


>> Für Ligaturen schlage ich wieder in Anlehnung an Babel den
>> senkrechten Strich | (Kode 124) vor.
>
> Nein, das will ich für gewichtete Trennstellen verwenden (siehe den
> Haupttrennstellen-Zweig, an dem ich zuletzt in der Regel gearbeitet
> habe).

Hm, den Zweig hatte ich lokal gar nicht vorliegen. Kannst du mir
erklären, weshalb gitk in dem Zweig trotzdem Commits von mir anzeigt?
Ich habe mit Sicherheit ausschließlich auf master gearbeitet.

Kannst du die Datei dateikopf um eine Beschreibung von | und =
aktualisieren?


> Ich verstehe nicht ganz, wozu man Ligaturen überhaupt markieren soll.
> An einer »zusammengesetzten« Trennstelle geht's nicht, ansonsten
> schon. Habe ich da was übersehen?

Wie sieht es mit begriff"|lich, kniff"|lig, Muff"|lon, Schnüff"|ler aus?
Sind das zusammengesetzte Trennstellen? Werden die mit = markiert?
Dann könnte man die Wortliste zum Erzeugen von Ligaturmustern wohl
tatsächlich aus den Trennstellen ableiten.


>> Für das Rund-s in gebrochenen Schriften sind mir die Konventionen s+
>> und s: in LaTeX bekannt.
>
> Auch das will ich nicht wirklich. Sobald sich jemand findet, der
> ernsthaft das Rund-s in die Liste einarbeiten will – ich nehme mal an,
> das betrifft nur die Muster der alten Rechtschreibung –,

Der traditionellen. :)


> konvertiere ich das ganze einfach nach Unicode, und wir verwenden »ſ«
> direkt. Genauso stört es mich wie bei {.../...} nicht, daß es für
> manche nicht leserlich genug ist, da eine Konversion in eine andere
> Repräsentation trivial ist.

Auch OK.

Viele Grüße,
Stephan Hennig

Werner LEMBERG

unread,
Mar 6, 2010, 12:16:46 PM3/6/10
to mailin...@arcor.de, trennmuster...@googlegroups.com
>>> Für Ligaturen schlage ich wieder in Anlehnung an Babel den
>>> senkrechten Strich | (Kode 124) vor.
>>
>> Nein, das will ich für gewichtete Trennstellen verwenden (siehe den
>> Haupttrennstellen-Zweig, an dem ich zuletzt in der Regel gearbeitet
>> habe).
>
> Hm, den Zweig hatte ich lokal gar nicht vorliegen. Kannst du mir
> erklären, weshalb gitk in dem Zweig trotzdem Commits von mir
> anzeigt? Ich habe mit Sicherheit ausschließlich auf master
> gearbeitet.

Ich habe Deine Änderungen in den Zweig eingepflegt, um ihn so weit wie
möglich synchron zu halten, und dabei die Option »--author« verwendet.

> Kannst du die Datei dateikopf um eine Beschreibung von | und =
> aktualisieren?

Bei Gelegenheit, natürlich. Mein Zweig ist noch bei weitem nicht
einsatzfähig; es muß noch viel gemacht werden. Das hat also noch
keine Eile :-)

>> Ich verstehe nicht ganz, wozu man Ligaturen überhaupt markieren
>> soll. An einer »zusammengesetzten« Trennstelle geht's nicht,
>> ansonsten schon. Habe ich da was übersehen?
>
> Wie sieht es mit begriff"|lich, kniff"|lig, Muff"|lon, Schnüff"|ler
> aus? Sind das zusammengesetzte Trennstellen? Werden die mit =
> markiert? Dann könnte man die Wortliste zum Erzeugen von
> Ligaturmustern wohl tatsächlich aus den Trennstellen ableiten.

Hmm. Jetzt sehe ich das Problem. Nein, in meinem Zweig wird bei
zweisilbigen Wörtern derzeit ausschließlich `-' verwendet (und zwar
absichtlich, zur Verbesserung der Mustergenerierung). Bei Wörtern mit
mehr Silben bekommt die Trennstelle vor `lich' und `lig' auf jeden
Fall ein `=' (oder `|'), weil sie ja eigentlich die beste oder eine
der besten im Wort ist.

Ich könnte mir vorstellen, in der Datenbank ein `=' in einem
zweisilbigen Wort z.B. durch `~' zu repräsentieren: Die Idee dahinter
ist, dem Bearbeiter mitzuteilen, daß diese Trennstelle absichtlich
höherwertig ist und kein Tippfehler oder ein Versehen. Bei der
Datenextraktion wird dann einfach `~' zu `=' konvertiert.


Werner

Stephan Hennig

unread,
Mar 15, 2010, 8:42:38 PM3/15/10
to trennmuster...@googlegroups.com, Werner LEMBERG
Am 06.03.2010 18:16, schrieb Werner LEMBERG:
>>>> F�r Ligaturen schlage ich wieder in Anlehnung an Babel den

>>>> senkrechten Strich | (Kode 124) vor.
>>>
>>> Nein, das will ich f�r gewichtete Trennstellen verwenden (siehe den

>>> Haupttrennstellen-Zweig, an dem ich zuletzt in der Regel gearbeitet
>>> habe).
>>
>> Hm, den Zweig hatte ich lokal gar nicht vorliegen. Kannst du mir
>> erkl�ren, weshalb gitk in dem Zweig trotzdem Commits von mir
>> anzeigt? Ich habe mit Sicherheit ausschlie�lich auf master
>> gearbeitet.
>
> Ich habe Deine �nderungen in den Zweig eingepflegt, um ihn so weit wie
> m�glich synchron zu halten, und dabei die Option �--author� verwendet.

Hm, ich glaube, daf�r nimmt man besser `git cherry-pick'. Aber n�tig
sollte das sowieso nicht sein, da ich mich mit �nderungen auf die
Verzeichnisse

dokumente/
dehyph-exptl/

beschr�nke.


>> Kannst du die Datei dateikopf um eine Beschreibung von | und =
>> aktualisieren?
>

> Bei Gelegenheit, nat�rlich. Mein Zweig ist noch bei weitem nicht
> einsatzf�hig; es mu� noch viel gemacht werden. Das hat also noch
> keine Eile :-)

Ich meinte auch nur in dem Zweig `Keine-Haupt...'. Da h�tte es mir
schon geholfen.

Viele Gr��e,
Stephan Hennig

Werner LEMBERG

unread,
Mar 16, 2010, 1:59:11 AM3/16/10
to mailin...@arcor.de, trennmuster...@googlegroups.com

>> Ich habe Deine Änderungen in den Zweig eingepflegt, um ihn so weit
>> wie möglich synchron zu halten, und dabei die Option »--author«
>> verwendet.
>
> Hm, ich glaube, dafür nimmt man besser `git cherry-pick'. Aber
> nötig sollte das sowieso nicht sein, da ich mich mit Änderungen auf
> die Verzeichnisse

Ich kann mich nicht mehr erinnern, wie ich das gemacht habe...

>>> Kannst du die Datei dateikopf um eine Beschreibung von | und =
>>> aktualisieren?
>>
>> Bei Gelegenheit, natürlich. Mein Zweig ist noch bei weitem nicht
>> einsatzfähig; es muß noch viel gemacht werden. Das hat also noch
>> keine Eile :-)
>
> Ich meinte auch nur in dem Zweig `Keine-Haupt...'. Da hätte es mir
> schon geholfen.

Ich rede auch von diesem Zweig... Hab' derzeit nur leider wenig Zeit
– wenn Du was schreiben könntest?


Werner
Reply all
Reply to author
Forward
0 new messages