Thomas Barghahn schrieb:
>Manfred Polak meinte:
>
>Falls bei dir jene Zeichen als "Salat" dargestellt werden, dann hat der
>Agent (ab Haus) mit UTF-8 tatsächlich ein riesiges Problem,
Das ist hier eigentlich Stand des Wissens seit damals in den
Ardennen ... [1]
>>Wirklich? Die fraglichen Zeichen sind nicht in CP 1252 (und vermutlich
>>auch in keiner anderen Windows-Codepage, aber ich werde jetzt nicht
>>alle durchsehen).
>
>Müssen sie auch nicht, denn *alle Zeichen* des Zeichensatzes UTF-8
>werdem mit den Zeichen des CP1252 zusammengesetzt.
Doch, müssen sie, wenn der Rest des Artikels auf CP 1252 beruht.
>Das höchste theoretische Zeichen (4Byte) ist also "FF FF FF FF"! "FF"
>wiederum ist Bestandteil des Zeichensatzes CP1252!
Das bedeutet nur, dass Agent den Artikel als raw text korrekt anzeigen
kann. Geschenkt. Wir wollen ja den dekodierten Text korrekt angezeigt
bekommen, und da ist es nicht so einfach.
Agent kann in einem Posting immer nur Zeichen aus *einer* Codepage
zur selben Zeit anzeigen. Man kann die Codepage für ein Posting per
Menü wechseln, aber Zeichen aus zwei oder mehr Codepages *gleichzeitig*
geht nicht. Das ist so in Stein gemeißelt, und AgtEx ändert auch nichts
daran. Hier hat man eben diesen chinesischen Riesen-Zeichensatz als
Codepage, und damit einen Workaround, der aber das eigentliche
Problem nicht beseitigt, sondern nur umgeht.
Übrigens gilt das nicht nur für UTF-8, wie ich gerade gemerkt habe.
Neulich (nämlich vor 13 Jahren) bin ich auf die etwas absonderliche
Idee gekommen, als Alternative mal ein Posting mit zwei MIME-Parts
zu senden, alle text/plain, aber mit unterschiedlichen Zeichensätzen
(in diesem Fall mit ISO-8859-1 und ISO-8859-7 für griechische Zeichen).
Das war ein Schuss in den Ofen, denn Agent nahm einfach den
Zeichensatz des ersten MIME-Parts und hat den auch auf den zweiten
Part angewandt, so dass der kaputt angezeigt wurde. Mit AgtEx
funktioniert das aber nachträglich doch, alle Zeichen werden richtig
angezeigt, ohne dass UTF-8 im Spiel ist. Falls jemand in Google Groups
oder sonstwo nach dem Posting suchen will:
Message-ID: <
13-08-09.00-4...@polak.dyn.dhs.org>
>Allein schon aus
>diesem Grund muss der interne Zeichensatz *nicht nur* bei dem Agenten
>auf "Windows-1252" zeigen (siehe "Default => Options => Languages =>
>Default Charset"! Dort ist "western Europe (windows-1252)" *Pflicht*!
Das ist nicht nur keine Pflicht, sondern da liegst Du komplett daneben.
Bei eingehenden Postings (mit beliebigem Zeichensatz), bei denen
der Zeichensatz im MIME-Header korrekt deklariert ist (oder bei
US-ASCII, wo das nicht nötig ist), hat diese Einstellung von Agent
genau gar keine Bedeutung. Diese Einstellung gilt für Postings mit
8-Bit-Zeichen im Body, aber ohne korrekten und vollständigen MIME-
Header. Denn dann hat man undeklarierte 8-Bit-Zeichen im Body, und
der Newsreader muss raten, was das für Zeichen sein sollen. Viele
Newsreader lösen das so, dass dann automatisch ISO-8859-1 oder
windows-1252 als Zeichensatz unterstellt wird. Andere (vor allem aus
der Unix/Linux-Ecke) sind konsequent und zeigen undeklarierte Zeichen
auch als solche an, also Fragezeichen oder weiße Kästchen. Agent
macht es anders. Mit der obigen Einstellung kann man wählen, welcher
Zeichensatz für solche technisch kaputten Postings angenommen (!)
werden soll, und zwar auch getrennt für einzelne Gruppen, abweichend
vom Default, je nachdem, welche Sprache (und damit Zeichensatz) in
der jeweiligen Gruppe üblich ist. Für unser Problem hier hilft das aber
überhaupt nicht weiter.
Und was die "Pflicht" betrifft: Wenn man ein Windows mit CP 1252 hat,
dann ist es auch völlig egal, ob man in der obigen Einstellung ASCII,
Latin 1 oder Western Europe (windows-1252) wählt. Es kommt dann
immer dasselbe dabei heraus.
>Mit cp1252 als "Default Charset" und einem guten Font (bspw. Tahoma) ist
>eine Umstellung keinesfalls nötig. Wie du schon schreibst: "auf was
>eigentlich?". ;-)
Doch, es ist notwendig, weil mit den üblichen Einstellungen für Deutsch/
Englisch diese Formelzeichen nicht angezeigt werden. Und die Frage
"auf was eigentlich?" war nicht rhetorisch, sondern ernst gemeint.
>OpenXP bspw. arbeitet mit dem internen ZS "IBM437".
Mit IBM437 kommt man nicht weit. Da hat man zwar einige math. Symbole,
die in CP 1252 fehlen, z.B. das Wurzelzeichen, "größer oder gleich" und
"kleiner oder gleich", aber schon so etwas Elementares wie das Integral-
zeichen fehlt, und viele andere Dinge auch.
>Wie sieht der Beitrag von Thomas L. denn bei dir aus (Bild reicht)?
Da reichen auch ein paar Worte: Alle Zeichen, die nicht in CP 1252
enthalten sind, werden als Fragezeichen dargestellt.
>Ansonsten müsste ich den Agenten einmal auf einen anderen Rechner
>installieren.
Eigentlich sollte es auch reichen, wenn Du für das Posting von Thomas
Lahn die Sprache manuell auf "English" stellst. Die Standardeinstel-
lungen dafür wirst Du ja hoffentlich nicht gelöscht haben.
Manfred
[1]
http://www.dewitz-home.de/inhalt/So_war_s/SW04/SW04-klimbim/hauptteil_sw04-klimbim.html