[Fullquote wegen Gruppenwechsel]
Thomas Barghahn schrieb:
> *Heiko Rost* meinte:
>> Thomas Barghahn schrieb:
>
>>> Bei solchen Schritten (Normalisierung) muss ich dann wirklich immer
>>> ehrlich bleiben und zugeben, dass ich es (noch) nicht richtig verstanden
>>> habe! Was genau passiert bei einer Normalisierung eigentlich und was ist
>>> das Ziel einer solchen Normalisierung?
>
>> Zum Beispiel um ö und ö (wird hoffentlich richtig verschickt) als den
>> selben Buchstaben zu interpretieren. Das erste ist der im deutschen
>> üblicherweise benutze Umlaut, das andere sind zwei Unicodepoints: ein o
>> und das diakritische Zeichen U+0308 (also nur die Punkte darüber).
>
> Soweit ist es mir klar. Stelle ich bspw. einen Satz auf den Kopf, dann
> nutze auch ich diese Vorgehensweise.
>
> Beispiel: „uǝso̤l ǝqɐƃɟnⱯ ǝuı̣ǝ„
>
> In diesem Beispiel besteht das auf dem Kopf stehende "ö" aos /zwei/
> Zeichen.
> Was ist denn nun aber die Normalisierung? ;-)
Normal ist in dem Fall, was für Deine Zwecke zielführend ist.
> Vielleicht will der Autor ja, dass seine Umlaute grundsätzlich aus zwei
> Zeichen bestehen. Hmm ...
Das kann der eine Autor wollen, der andere will es nicht und dann geht
die Sache beim Vergleich schief. Das Thema hat sich aus
| Deswegen meinte ich ja, daß das gesamte Subject zunächst de-
| kodiert werden muß. Dann kann man problemlos vergleichen.
entwickelt. Der Vergleich kann fehlschlagen, wenn Du zwei Zeichenketten
vergleichst, die den Umlaut unterschiedlich darstellen. Für den Leser
sind die beiden Zeilen
Die höhere Wertung
Die höhere Wertung
identisch und soll in Deinem Skript sicher auch als identisch erkannt
werden. Deshalb muß die Vergleichsroutine das irgendwie berücksichtigen.
Sonst produzierst Du bei der Subjectkorrektur möglicherweise so etwas
wie
Subject: Die höhere Wertung (was: Die höhere Wertung)
Bei dem Zitat aus meinem Vorposting hat übrigens auch irgendwer aus dem
ö ein ö gemacht. Irgendeine Nachbearbeitung meinerseits ist nicht die
Ursache, auch bei direkter Abholung mit TB vom Newsserver ist das schon
so. Möglicherweise nimmt flnews von sich aus bereits so eine
Normalisierung vor.
Gruß Heiko
--
Der Mensch ist gut, nur die Nerven sind schlecht.
Mose Ya'aqob Ben-Gavriêl