Google Groups no longer supports new Usenet posts or subscriptions. Historical content remains viewable.
Dismiss

À propos de l'UTF-8 dans [DOC] Tables de caracteres utilisees dans la hierarchie fr.*

4 views
Skip to first unread message

Olivier Miakinen

unread,
Nov 6, 2012, 1:30:04 PM11/6/12
to
[Article diapubliᅵ dans quatre groupes dont fr.usenet.documents,
avec suivi vers ce dernier groupe]

Bonjour,

J'aimerais discuter un peu de la doc intitulᅵe ᅵ Tables de caracteres
utilisees dans la hierarchie fr.* ᅵ, qui ᅵtait publiᅵe rᅵguliᅵrement
jusqu'ᅵ ce que le robot qui s'en chargeait tombe en panne en 2011.

ᅵ ma connaissance, la derniᅵre version publiᅵe est celle du 1er juin
2001, <news:doc.cara...@talisker.lacave.net>, que l'on peut
retrouver par exemple ici :
<http://al.howardknight.net/msgid.cgi?ID=135222658700>.

<cit.>
Les jeux de caractᅵres fortement recommandᅵs dans la hiᅵrarchie
francophone sont la table 7 bits us-ascii et les tables 8 bits
iso-8859-15 et iso-8859-1 (latin 9 et 1).

Il est possible d'utiliser maintenant la table Unicode UTF-8 quand
c'est utile ᅵ la bonne comprᅵhension de ce que l'on veut ᅵcrire.

Aucun autre jeu n'est autorisᅵ.
</cit.>


Si je souhaite revenir dessus, c'est ᅵ cause d'un acteur devenu
malheureusement incontournable pour Usenet en gᅵnᅵral et Usenet-fr
en particulier : Google groupes.

ᅵ cause de cet archiveur devenu simple passerelle web-news, on avait
dᅵjᅵ acceptᅵ que les articles soient encodᅵs en quoted-printable au
lieu de 8bit, parce que tous les articles qui en sortent -- et ils
sont nombreux -- sont en QP.

Or, depuis plusieurs mois, se pose un autre problᅵme : la plupart des
articles rᅵdigᅵs en iso-8859-15 ou iso-8859-1 et 8bit sont charcutᅵs
en arrivant chez Google groupes, tous les caractᅵres non-ASCII ᅵtant
remplacᅵs par des espaces. Au dᅵbut j'ai pensᅵ qu'il s'agissait d'un
bug temporaire et que les dᅵveloppeurs de GG l'auraient vite corrigᅵ,
mais visiblement ils s'en foutent. Ce problᅵme peut rendre un texte
en franᅵais illisible, ᅵ Maᅵtᅵ a dᅵjᅵ ᅵtᅵ aperᅵue ᅵ devenant ᅵ Ma t
a d j t aper ue ᅵ, mais aussi il peut amener ᅵ des contresens, par
exemple en maths, ᅵ 2 ᅵ x ᅵ (2 divisᅵ par x) devenant ᅵ 2 x ᅵ
(2 multipliᅵ par x).


Du coup, et avant de chercher quel autre robot pourrait s'occuper de
la publication de cette doc, j'aimerais discuter de la possibilitᅵ de
donner ᅵ UTF-8 un statut un peu plus ᅵ officiel ᅵ pour Usenet-fr, et
de l'autoriser mᅵme lorsque iso-8859-1 ou iso-8859-15 suffirait --
voire de le conseiller dans tous les cas.

Aprᅵs tout, cette norme existe depuis septembre 1992, ce qui fait dᅵjᅵ
plus de vingt ans (une ᅵternitᅵ ᅵ l'ᅵchelle de l'informatique), et
elle a ᅵtᅵ standardisᅵe peu aprᅵs. Elle est mᅵme devenu obligatoire
pour tous les nouveaux standards Internet, par dᅵfaut et non plus
comme une extension possible.


Donc voilᅵ, j'aimerais savoir s'il y a encore des rᅵticences ᅵ passer
sans restriction ᅵ UTF-8, que ce soit par raison idᅵologique (haine
envers Google par exemple) ou de confort (un dino utilisant un trᅵs
vieux nouvelleur jamais mis ᅵ jour et ne voulant pas en changer), ou
si au contraire Usenet-fr est enfin prᅵt, quelque treize ans aprᅵs
David Madore...

Cordialement,
--
Olivier Miakinen

Olivier Miakinen

unread,
Nov 6, 2012, 1:40:01 PM11/6/12
to
[Supersedes]
[Article diapublié dans quatre groupes dont fr.usenet.documents,
avec suivi vers ce dernier groupe]

Bonjour,

J'aimerais discuter un peu de la doc intitulée « Tables de caracteres
utilisees dans la hierarchie fr.* », qui était publiée régulièrement
jusqu'à ce que le robot qui s'en chargeait tombe en panne en 2011.

À ma connaissance, la dernière version publiée est celle du 1er juin
2011, <news:doc.cara...@talisker.lacave.net>, que l'on peut
retrouver par exemple ici :
<http://al.howardknight.net/msgid.cgi?ID=135222658700>.

<cit.>
Les jeux de caractères fortement recommandés dans la hiérarchie
francophone sont la table 7 bits us-ascii et les tables 8 bits
iso-8859-15 et iso-8859-1 (latin 9 et 1).

Il est possible d'utiliser maintenant la table Unicode UTF-8 quand
c'est utile à la bonne compréhension de ce que l'on veut écrire.

Aucun autre jeu n'est autorisé.
</cit.>


Si je souhaite revenir dessus, c'est à cause d'un acteur devenu
malheureusement incontournable pour Usenet en général et Usenet-fr
en particulier : Google groupes.

À cause de cet archiveur devenu simple passerelle web-news, on avait
déjà accepté que les articles soient encodés en quoted-printable au
lieu de 8bit, parce que tous les articles qui en sortent -- et ils
sont nombreux -- sont en QP.

Or, depuis plusieurs mois, se pose un autre problème : la plupart des
articles rédigés en iso-8859-15 ou iso-8859-1 et 8bit sont charcutés
en arrivant chez Google groupes, tous les caractères non-ASCII étant
remplacés par des espaces. Au début j'ai pensé qu'il s'agissait d'un
bug temporaire et que les développeurs de GG l'auraient vite corrigé,
mais visiblement ils s'en foutent. Ce problème peut rendre un texte
en français illisible, « Maïté a déjà été aperçue » devenant « Ma t
a d j t aper ue », mais aussi il peut amener à des contresens, par
exemple en maths, « 2 ÷ x » (2 divisé par x) devenant « 2 x »
(2 multiplié par x).


Du coup, et avant de chercher quel autre robot pourrait s'occuper de
la publication de cette doc, j'aimerais discuter de la possibilité de
donner à UTF-8 un statut un peu plus « officiel » pour Usenet-fr, et
de l'autoriser même lorsque iso-8859-1 ou iso-8859-15 suffirait --
voire de le conseiller dans tous les cas.

Après tout, cette norme existe depuis septembre 1992, ce qui fait déjà
plus de vingt ans (une éternité à l'échelle de l'informatique), et
elle a été standardisée peu après. Elle est même devenu obligatoire
pour tous les nouveaux standards Internet, par défaut et non plus
comme une extension possible.


Donc voilà, j'aimerais savoir s'il y a encore des réticences à passer
sans restriction à UTF-8, que ce soit par raison idéologique (haine
envers Google par exemple) ou de confort (un dino utilisant un très
vieux nouvelleur jamais mis à jour et ne voulant pas en changer), ou
si au contraire Usenet-fr est enfin prêt, quelque treize ans après

Otomatic

unread,
Nov 9, 2012, 11:33:29 AM11/9/12
to
Olivier Miakinen <om+...@miakinen.net> écrivait :

> > Subject: Re: [Proposition 2] pour[DOC] Tables de caractères utilisées dans la hiérarchie fr.*
> > Message-ID: <kh7q98hefm529osm2...@4ax.com>
> > User-Agent: ForteAgent/7.00.32.1200
>
> Si tu veux on peut faire suivre vers fr.usenet.8bits, mais le mieux
> serait de contacter le développeur de Forté Agent pour lui causer des
> RFC 2047 et 5536.
Je fais suivre sur fr.usenet.8bits en ayant, dans les Outils de Forté
Agent, coché MIME headers qui ne l'était pas, pour voir...
--
Aujourd'hui, l'idéal du progrès est remplacé par l'idéal de l'innovation :
il ne s'agit pas que ce soit mieux, il s'agit seulement que ce soit nouveau,
même si c'est pire qu'avant et cela de toute évidence. Montherlant
Technologie aéronautique - http://ottello.net - Les anciens de Vilgénis
Message has been deleted

Olivier Miakinen

unread,
Nov 9, 2012, 11:45:15 AM11/9/12
to
Le 09/11/2012 17:33, Otomatic m'a répondu :
>
> Je fais suivre sur fr.usenet.8bits en ayant, dans les Outils de Forté
> Agent, coché MIME headers qui ne l'était pas, pour voir...

<cit.>
Subject: Re: =?ISO-8859-1?Q?[Proposition_2]_pou?=
=?ISO-8859-1?Q?r[DOC]_Tables_de_ca?=
=?ISO-8859-1?Q?ract=E8res_utilis=E9es_?=
=?ISO-8859-1?Q?dans_la_hi=E9rarchie_?=
=?ISO-8859-1?Q?fr.*?=
</cit.>

Ah oui, c'est beaucoup mieux, même s'ils sont plutôt frileux sur la
longueur des lignes (le RFC 2047 fixe la limite à 76 caractères).

Quelle est la configuration par défaut pour cette option ?

--
Olivier Miakinen

Otomatic

unread,
Nov 9, 2012, 12:24:58 PM11/9/12
to
Olivier Miakinen <om+...@miakinen.net> écrivait :

> Ah oui, c'est beaucoup mieux, même s'ils sont plutôt frileux sur la
> longueur des lignes (le RFC 2047 fixe la limite à 76 caractères).
>
> Quelle est la configuration par défaut pour cette option ?

Je n'en sais fichtre (plus) rien. J'utilise Forté Agent depuis 1993
(Version 0.99) et Windows 3.11. Mais, il semble me souvenir d'une
ancienne discussion, ici même, et avec toi, sur les paramètres à mettre
pour poster correctement et MIME Headers devait être coché par défaut.

Dany Boonce <dany_ne_bou...@yahoo.fr> écrivait :

>C'est bien mais c'est toujours pas de l'UTF-8, same player try again.
Normal ! Puisque, toujours dans le paramètres d'envoi sur Usenet de
Forté Agent j'ai :
Send Usenet as : Western no Unicode (us-ascii, iso-8859-1, iso-8859-15)

Que je passe maintenant à :
Send Usenet as : Western with Euro (us-ascii, iso-8859-1, iso-8859-15,
utf-8)

Mais le codage ne passera à utf-8 que si un caractère présent ne peut
pas être codé dans un des jeux précédant utf-8, jeux qui sont pris par
priorité de gauche à droite.

Antoine Leca

unread,
Nov 13, 2012, 5:54:55 AM11/13/12
to
[ totalement hors sujet au cas où cela vous échapperait;
suivis sur fr.usenet.8bits pour le sujet d'encodage ]

Dany Boonce écrivit (en iso-8859-1) dans
<news:fr.usenet.docume...@boonce.h3fa7ad4b.1211133500>:
> Xavier Roche <news:k7q3pk$uft$2...@news.httrack.net>
>> A propos de porte ouverte, en voici une: ðYsª [🚪, U+1F6AA]
>
> C'est de l'UTF-16 ? Nan, j'déconne, je ne vois que du russe au cube.

Marrant comme rapprochement... Si un c* s'amuse à envoyer de l'UTF-16
non annoncé, on le verrait probablement avec un espacement de caractère
double (autrement dit, un caractère sur deux) ; et c'est exactement ce
que le russe (ou les Russes, ou les Russes à l'époque de la machine à
écrire et du terminal 80×25) utilise{,nt,aient} pour la mise en relief,
là où nous utiliserions plutôt le *gras*, et la typographie française
classique les GRANDES CAPITALES.


Antoine

Thomas Harding

unread,
Nov 18, 2012, 3:57:33 AM11/18/12
to
C E C I E S T U N T I T R E

Mais *évidemment*, /tout ceci n'a rien à voir/

-- avec une forme de présentation --- quelle qu'elle soit
à peu près correcte d'un document présentant une lon-
gueur de ligne quelconque;

-- avec une forme présentable et lisible à long terme ;

-- ou n'importe-quoi d'autre.

Si UTF-8 présente un avantage, c'est que le dit document,
qu'il soit écrit en cyrillique, en klingon ou en n'importe-quoi,
sera à coup sur affichable en un seul coup de cuiller à pot,
parce qu'il n'y a même pas à se poser la question de savoir
quel est le bon bout de la fin à prendre.

En plus on aura les tirets adéquats, parce qu'au dessus
c'est vraiment moche.

Pour les 16 plans qui manquent, c'est une question d'économie...
je me demande si le klingon est pas dedans.

Je vous souhaite la bonne journée :)


--
Thomas Harding
0 new messages