Google Groups no longer supports new Usenet posts or subscriptions. Historical content remains viewable.
Dismiss

Re: Gemälde von Picard

2 views
Skip to first unread message

Quinn C

unread,
Mar 23, 2022, 5:08:24 PM3/23/22
to
* Stefan Ram:

> Thomas Koenig <tko...@netcologne.de> writes:
>>Quinn C <lispa...@crommatograph.info> schrieb:
>>>Man sollte wohl an ein <ED><A0><B5><ED><B3><95>-Shirt denken.
>>Ich denke an ein <ED><A0><B5><ED><B3><95>-Shirt, aber irgendwie
>>will sich keine rechte Vorstellung einstellen.
>
> ED A0 B5 ED B3 95 gibt es in keiner üblichen Codierung.
>
> Es ergibt sich, wenn man die beiden Komponenten der UTF-16-
> Surrogatpaardarstellung eines Zeichens jeweils mit einer Art
> von UTF-8-Algorithmus codiert, der auf die Begrenzungen von
> UTF-8 keine Rücksicht nimmt, die eine solche UTF-8-Kodierung
> von Surrogatpaarkomponenten eigentlich nicht zulassen.

Das intendierte Zeichen (1D4D5) hat eigentlich die UTF-8-Kodierung F0 9D
93 95.

Wie gesagt, Dialog kann es selber nicht darstellen, aber wenn ich es von
Dialog zurück in andere Windows-Applikationen kopiere, funktioniert es
weiterhin.

Ich vermute mal vorsichtig, die seltsame Kodierung ist das Ergebnis der
mechanischen Anwendung des UTF-8-Algorithmus durch Dialog (das so hohe
Codepunkte nicht unterstützt) auf die Windows-interne Darstellung mit
UTF-16 und Surrogatepaaren.

[F'up2 de.comm.software.newsreader]

--
Learning the rules that govern intelligible speech is an
inculcation into normalized language, where the price of not
conforming is the loss of intelligibility itself.
-- Judith Butler

Andy Angerer

unread,
Mar 23, 2022, 9:39:15 PM3/23/22
to
Am 23.03.22 um 22:08 schrieb Quinn C:
> * Stefan Ram:
>
>> Thomas Koenig <tko...@netcologne.de> writes:
>>> Quinn C <lispa...@crommatograph.info> schrieb:
>>>> Man sollte wohl an ein <ED><A0><B5><ED><B3><95>-Shirt denken.
>>> Ich denke an ein <ED><A0><B5><ED><B3><95>-Shirt, aber irgendwie
>>> will sich keine rechte Vorstellung einstellen.
>>
>> ED A0 B5 ED B3 95 gibt es in keiner üblichen Codierung.
>>
>> Es ergibt sich, wenn man die beiden Komponenten der UTF-16-
>> Surrogatpaardarstellung eines Zeichens jeweils mit einer Art
>> von UTF-8-Algorithmus codiert, der auf die Begrenzungen von
>> UTF-8 keine Rücksicht nimmt, die eine solche UTF-8-Kodierung
>> von Surrogatpaarkomponenten eigentlich nicht zulassen.
>
> Das intendierte Zeichen (1D4D5) hat eigentlich die UTF-8-Kodierung F0 9D
> 93 95.
>
> Wie gesagt, Dialog kann es selber nicht darstellen, aber wenn ich es von
> Dialog zurück in andere Windows-Applikationen kopiere, funktioniert es
> weiterhin.
>
> Ich vermute mal vorsichtig, die seltsame Kodierung ist das Ergebnis der
> mechanischen Anwendung des UTF-8-Algorithmus durch Dialog (das so hohe
> Codepunkte nicht unterstützt) auf die Windows-interne Darstellung mit
> UTF-16 und Surrogatepaaren.
>
> [F'up2 de.comm.software.newsreader]


Die spinnen, die Trekkies.


--
! NEU !
Kurzgeschichten
eine davon ist von mir
<http://www.amazon.de/dp/B09K26CCXH>

Thomas Barghahn

unread,
Mar 23, 2022, 11:09:54 PM3/23/22
to
*Quinn C* meinte:
> * Stefan Ram:
>> Thomas Koenig <tko...@netcologne.de> writes:
>>>Quinn C <lispa...@crommatograph.info> schrieb:

>>>>Man sollte wohl an ein <ED><A0><B5><ED><B3><95>-Shirt denken.
>>>Ich denke an ein <ED><A0><B5><ED><B3><95>-Shirt, aber irgendwie
>>>will sich keine rechte Vorstellung einstellen.

>> ED A0 B5 ED B3 95 gibt es in keiner üblichen Codierung.

>> Es ergibt sich, wenn man die beiden Komponenten der UTF-16-
>> Surrogatpaardarstellung eines Zeichens jeweils mit einer Art
>> von UTF-8-Algorithmus codiert, der auf die Begrenzungen von
>> UTF-8 keine Rücksicht nimmt, die eine solche UTF-8-Kodierung
>> von Surrogatpaarkomponenten eigentlich nicht zulassen.

> Das intendierte Zeichen (1D4D5) hat eigentlich die UTF-8-Kodierung F0 9D
> 93 95.

> Wie gesagt, Dialog kann es selber nicht darstellen, aber wenn ich es von
> Dialog zurück in andere Windows-Applikationen kopiere, funktioniert es
> weiterhin.

Das ist einfach nur "CESU-8"! Dialog und flnews sind so ziemlich die
einzigen Reader, welcher es können - allerdings deklariert es dann
Dialog falsch als "UTF-8".

Routinen (Scripte) für Dialog, die mit dem Zeichensätzen "UTF-8" und
"CESU-8" komplett umgehen können, die findet man hier:

https://www.barghahn-online.de/4td_tb_scripts/tb_scripts_hinweise_zu_utf8.php
Weitere Informationen auch in der Gruppe: <news:de.comm.software.40tude-Dialog>

Thomas 😷 💉︎💉︎💉︎ ✔️
--
== S E N D E Z E I T ===========================
DATUM : DONNERSTAG, 24. MÄRZ 2022
UHRZEIT: 04:09:47 (MEZ)
== Heute: Bundesweiter Elefanten zeichnen Tag ==

Ignatios Souvatzis

unread,
Mar 24, 2022, 8:40:07 AM3/24/22
to
Thomas Barghahn wrote:

> Das ist einfach nur "CESU-8"! Dialog und flnews sind so ziemlich die
> einzigen Reader, welcher es können - allerdings deklariert es dann
> Dialog falsch als "UTF-8".

"...CESU-8 is not an official part of the Unicode Standard, because
Unicode Technical Reports are informative documents only.[2] It
should be used exclusively for internal processing and never for
external data exchange.

Supporting CESU-8 in HTML documents is prohibited by the W3C[3][4]
and WHATWG[5] HTML standards, as it would present a cross-site
scripting vulnerability.[6] ..."

([[en:CESU-8]], Zitatpointer stammen von dort.)

-is
--
A medium apple... weighs 182 grams, yields 95 kcal, and contains no
caffeine, thus making it unsuitable for sysadmins. - Brian Kantor

Thomas Barghahn

unread,
Mar 24, 2022, 9:11:01 AM3/24/22
to
*Ignatios Souvatzis* meinte:
> Thomas Barghahn wrote:

>> Das ist einfach nur "CESU-8"! Dialog und flnews sind so ziemlich die
>> einzigen Reader, welcher es können - allerdings deklariert es dann
>> Dialog falsch als "UTF-8".

> "...CESU-8 is not an official part of the Unicode Standard, because
> Unicode Technical Reports are informative documents only.[2] It
> should be used exclusively for internal processing and never for
> external data exchange.

> Supporting CESU-8 in HTML documents is prohibited by the W3C[3][4]
> and WHATWG[5] HTML standards, as it would present a cross-site
> scripting vulnerability.[6] ..."

> ([[en:CESU-8]], Zitatpointer stammen von dort.)

Ja und? Ich schrieb doch, dass es *heute* für Dialog entsprechende
Converter gibt. Schau in meine Header!

Einen "Vorgeschmack" siehst du in meinem Gruß ... - alles UTF-8!

Thomas 😷 💉︎💉︎💉︎ ✔️
--
== S E N D E Z E I T ===========================
DATUM : DONNERSTAG, 24. MÄRZ 2022
UHRZEIT: 14:10:54 (MEZ)

Eike Rathke

unread,
Mar 25, 2022, 1:34:09 PM3/25/22
to
* Ignatios Souvatzis, 2022-03-24 12:12 UTC:
> Thomas Barghahn wrote:
>> Das ist einfach nur "CESU-8"! Dialog und flnews sind so ziemlich die
>> einzigen Reader, welcher es können - allerdings deklariert es dann
>> Dialog falsch als "UTF-8".
>
> "...CESU-8 is not an official part of the Unicode Standard, because
> Unicode Technical Reports are informative documents only.[2] It
> should be used exclusively for internal processing and never for
> external data exchange.

Offiziell steht CESU zwar fuer "Compatibility Encoding Scheme for
UTF-16", die wahre Bedeutung ist treffend aber eher "Crappy Extended
Shitty Unicode", mit einem Satz zusammengefasst

| CESU-8-kodierter Text entsteht, wenn bei der Kodierung nach UTF-8 eine
| etwaige UTF-16-Kodierung der Ausgangsdaten nicht berücksichtigt wird,
| sei es aus Unkenntnis oder weil der Programmcode noch aus der Zeit
| stammt, in der Unicode nur ein 16-Bit-Zeichensatz war.

https://de.wikipedia.org/wiki/CESU-8

It's broken.

Eike

--
OpenPGP/GnuPG encrypted mail preferred in all private communication.
GPG key 0x6A6CD5B765632D3A - 2265 D7F3 A7B0 95CC 3918 630B 6A6C D5B7 6563 2D3A
Use LibreOffice! https://www.libreoffice.org/

Thomas Barghahn

unread,
Mar 25, 2022, 8:11:19 PM3/25/22
to
*Eike Rathke* meinte:
> * Ignatios Souvatzis, 2022-03-24 12:12 UTC:
>> Thomas Barghahn wrote:

>>> Das ist einfach nur "CESU-8"! Dialog und flnews sind so ziemlich die
>>> einzigen Reader, welcher es können - allerdings deklariert es dann
>>> Dialog falsch als "UTF-8".
>>
>> "...CESU-8 is not an official part of the Unicode Standard, because
>> Unicode Technical Reports are informative documents only.[2] It
>> should be used exclusively for internal processing and never for
>> external data exchange.

> Offiziell steht CESU zwar fuer "Compatibility Encoding Scheme for
> UTF-16", die wahre Bedeutung ist treffend aber eher "Crappy Extended
> Shitty Unicode", mit einem Satz zusammengefasst

>| CESU-8-kodierter Text entsteht, wenn bei der Kodierung nach UTF-8 eine
>| etwaige UTF-16-Kodierung der Ausgangsdaten nicht berücksichtigt wird,
>| sei es aus Unkenntnis oder weil der Programmcode noch aus der Zeit
>| stammt, in der Unicode nur ein 16-Bit-Zeichensatz war.

Dein Newsreader muss es doch nur umrechnen! Nicht, dass er /das/ nicht
kann!

Richtig *ALTE* (siehe Dialog aus 2005) und richtig *GEPFLEGTE* Newsreader
(siehe /flnews/), die können es einfach! :-)

*** *Und noch einmal* ***!
40tude-Dialog ist vollkommen *** *UTF-8 tauglich* ***!

Thomas 😷 💉︎💉︎💉︎ ✔️
--
== S E N D E Z E I T ===========================
DATUM : SONNABEND, 26. MÄRZ 2022
UHRZEIT: 01:11:12 (MEZ)
== Heute: Erfinde Deinen eigenen Feiertag Tag ==

Michael Bäuerle

unread,
Mar 26, 2022, 4:48:54 AM3/26/22
to
Thomas Barghahn wrote:
> *Eike Rathke* meinte:
> > * Ignatios Souvatzis, 2022-03-24 12:12 UTC:
> > > Thomas Barghahn wrote:
> > > >
> > > > Das ist einfach nur "CESU-8"! Dialog und flnews sind so ziemlich die
> > > > einzigen Reader, welcher es können - allerdings deklariert es dann
> > > > Dialog falsch als "UTF-8".

Weswegen es dann nicht korrekt angezeigt wird.

> > > "...CESU-8 is not an official part of the Unicode Standard, because
> > > Unicode Technical Reports are informative documents only.[2] It
> > > should be used exclusively for internal processing and never for
^^^^^^^^^
> > > external data exchange.
^^^^^^^^^^^^^^^^^^^^^^
Aber eigentlich hätte es erst gar nicht versendet werden dürfen.

> > Offiziell steht CESU zwar fuer "Compatibility Encoding Scheme for
> > UTF-16", die wahre Bedeutung ist treffend aber eher "Crappy Extended
> > Shitty Unicode", mit einem Satz zusammengefasst
> >
> > | CESU-8-kodierter Text entsteht, wenn bei der Kodierung nach UTF-8 eine
> > | etwaige UTF-16-Kodierung der Ausgangsdaten nicht berücksichtigt wird,
> > | sei es aus Unkenntnis oder weil der Programmcode noch aus der Zeit
> > | stammt, in der Unicode nur ein 16-Bit-Zeichensatz war.
>
> Dein Newsreader muss es doch nur umrechnen! Nicht, dass er /das/ nicht
> kann!

Die meisten Newsreader dürften das nicht unterstützen. Grund siehe oben.

> Richtig *ALTE* (siehe Dialog aus 2005) und richtig *GEPFLEGTE* Newsreader
> (siehe /flnews/), die können es einfach! :-)

Sinnvoll ist es trotzdem nur für Fälle, wo sich der Versand von CESU-8
nicht vermeiden lässt (dann sollte wenigstens die Deklaration im
MIME-Headerfeld "Content-Type" stimmen. Vergleichbar den Fällen, wo
Daten mit Windows-1252 Codierung nicht als "ISO-8859-1" deklariert
versendet werden sollten).

Durch korrekte Deklaration besteht zumindest die Chance einen Proxy oder
Präprozessor die Konvertierung in eine gängige Codierung durchführen zu
lassen.

Ignatios Souvatzis

unread,
Apr 3, 2022, 2:10:07 PM4/3/22
to
Michael Bäuerle wrote:

> Sinnvoll ist es trotzdem nur für Fälle, wo sich der Versand von CESU-8
> nicht vermeiden lässt (dann sollte wenigstens die Deklaration im
> MIME-Headerfeld "Content-Type" stimmen. Vergleichbar den Fällen, wo
> Daten mit Windows-1252 Codierung nicht als "ISO-8859-1" deklariert
> versendet werden sollten).
>
> Durch korrekte Deklaration besteht zumindest die Chance einen Proxy oder
> Präprozessor die Konvertierung in eine gängige Codierung durchführen zu
> lassen.

Amen, brother.
0 new messages