Regex et accents "à la mac"...

Une Bévue

unread,

Dec 16, 2013, 1:57:50 AM12/16/13

to

j'ai un proto :
String.prototype.unaccent=function(){
//
http://stackoverflow.com/questions/990904/javascript-remove-accents-in-strings
var r=this.toLowerCase();
//r = r.replace(new RegExp(/\s/g),"");
r = r.replace(new RegExp(/[ï¿½ï¿½ï¿½ï¿½ï¿½ï¿½]/g),"a");
r = r.replace(new RegExp(/ï¿½/g),"ae");
r = r.replace(new RegExp(/ï¿½/g),"c");
r = r.replace(new RegExp(/[ï¿½ï¿½ï¿½ï¿½]/g),"e");
r = r.replace(new RegExp(/[ï¿½ï¿½ï¿½ï¿½]/g),"i");
r = r.replace(new RegExp(/ï¿½/g),"n");
r = r.replace(new RegExp(/[ï¿½ï¿½ï¿½ï¿½ï¿½]/g),"o");
r = r.replace(new RegExp(/ï¿½/g),"oe");
r = r.replace(new RegExp(/[ï¿½ï¿½ï¿½ï¿½]/g),"u");
r = r.replace(new RegExp(/[ï¿½ï¿½]/g),"y");
//r = r.replace(new RegExp(/\W/g),"");
return r;
}

pour dï¿½saccentuer les chaines de caractï¿½res, ï¿½a me donne satisfaction en
UTF-8 SAUF QUE, j'ai rï¿½alisï¿½ hier soir que les accents ne sont pas
supprimï¿½s...

enfin, je m'explique, sur mac, le codage UTF-8 est "spï¿½cial" avec les
accents, c'est un "UTF-8-MAC" oï¿½ les accents sont mis ï¿½ part, du genre :
e'te' au lieu de ï¿½tï¿½ mais ï¿½a ne se voit pas ï¿½ l'ï¿½cran.

donc, question, en js y a t'il un moyen pour passer d'UTF-8-MAC ï¿½ UTF-8
tout court ?

Olivier Miakinen

unread,

Dec 16, 2013, 6:10:34 AM12/16/13

to

Le 16/12/2013 07:57, Une Bï¿œvue a ï¿œcrit :

> j'ai un proto :
> String.prototype.unaccent=function(){
> //
> http://stackoverflow.com/questions/990904/javascript-remove-accents-in-strings
> var r=this.toLowerCase();
> //r = r.replace(new RegExp(/\s/g),"");

> r = r.replace(new RegExp(/[ï¿œï¿œï¿œï¿œï¿œï¿œ]/g),"a");
> r = r.replace(new RegExp(/ï¿œ/g),"ae");
> r = r.replace(new RegExp(/ï¿œ/g),"c");
> r = r.replace(new RegExp(/[ï¿œï¿œï¿œï¿œ]/g),"e");
> r = r.replace(new RegExp(/[ï¿œï¿œï¿œï¿œ]/g),"i");
> r = r.replace(new RegExp(/ï¿œ/g),"n");
> r = r.replace(new RegExp(/[ï¿œï¿œï¿œï¿œï¿œ]/g),"o");
> r = r.replace(new RegExp(/ï¿œ/g),"oe");
> r = r.replace(new RegExp(/[ï¿œï¿œï¿œï¿œ]/g),"u");
> r = r.replace(new RegExp(/[ï¿œï¿œ]/g),"y");

> //r = r.replace(new RegExp(/\W/g),"");
> return r;
> }
>

> pour dï¿œsaccentuer les chaines de caractï¿œres, ï¿œa me donne satisfaction en
> UTF-8 SAUF QUE, j'ai rï¿œalisï¿œ hier soir que les accents ne sont pas
> supprimï¿œs...
>
> enfin, je m'explique, sur mac, le codage UTF-8 est "spï¿œcial" avec les
> accents, c'est un "UTF-8-MAC" oï¿œ les accents sont mis ï¿œ part, du genre :
> e'te' au lieu de ï¿œtï¿œ mais ï¿œa ne se voit pas ï¿œ l'ï¿œcran.

C'est une forme correcte de Unicode oï¿œ les caractï¿œres sont dï¿œcomposï¿œs au
lieu d'ï¿œtre prï¿œcomposï¿œs.

Les diacritiques utilisï¿œs ci-dessus sont tous dans la zone 0300-0327 :
<http://www.unicode.org/fr/charts/PDF/U0300.pdf>
0300 accent grave
0301 accent aigu
0302 accent circonflexe
0303 tilde
0308 trï¿œma
030a rond en chef
0327 cï¿œdille
</>

Essaye d'ajouter ceci ï¿œ ta liste :
r = r.replace(new RegExp(/\u0300/g),"");

Si cela vire bien les accents graves, il est probable que ceci devrait
retirer tous les accents :
r = r.replace(new RegExp(/[\u0300-\u036f]/g),"");

> donc, question, en js y a t'il un moyen pour passer d'UTF-8-MAC ï¿œ UTF-8
> tout court ?

Appelons les choses par leur nom. Tu veux passer d'une forme de
normalisation dï¿œcomposï¿œe (NFD ou NFKD) en une forme de normalisation
composï¿œe (NFC ou NFKC). C'est sans doute possible, mais pour ce qui
est de supprimer les accents la forme dï¿œcomposï¿œe est quand mï¿œme plus
simple, cf. supra.

Cordialement,
--
Olivier Miakinen

Une Bévue

unread,

Dec 16, 2013, 9:50:43 AM12/16/13

to

Le 16/12/13 12:10, Olivier Miakinen a ï¿œcrit :

> Essaye d'ajouter ceci ï¿œ ta liste :
> r = r.replace(new RegExp(/\u0300/g),"");

je n'ai pas pu tester, mon exemple ne comportant pas d'accent grave.

> Si cela vire bien les accents graves, il est probable que ceci devrait
> retirer tous les accents :
> r = r.replace(new RegExp(/[\u0300-\u036f]/g),"");

bon, lï¿œ j'ai testï¿œ, sur les exemples que j'avais, je dois dire que je ne
sais ni d'oï¿œ ï¿œa vient, ces caractï¿œres dï¿œcomposï¿œs, ni comment en
fabriquer ï¿œ volontï¿œ.

Bon, mon test donne :
$ ./unaccent-test2.js
source = 'Gelï¿œe de thï¿œ'
source.unaccent() = 'gelï¿œe de thï¿œ'
source.replace(...) = 'Gelee de the'
source = 'Confiture pï¿œches brugnons'
source.unaccent() = 'confiture pï¿œches brugnons'
source.replace(...) = 'Confiture peches brugnons'
source = 'Gelï¿œe pommes cassis'
source.unaccent() = 'gelï¿œe pommes cassis'
source.replace(...) = 'Gelee pommes cassis'
source = 'photocopie livre de Lenï¿œtre'
source.unaccent() = 'photocopie livre de lenotre'
source.replace(...) = 'photocopie livre de Lenï¿œtre'

alors source : les caractï¿œres en entrï¿œe, source.unaccent() : les
caractï¿œres moulinï¿œs par mon script et enfin source.replace(...) : les
caractï¿œres filtrï¿œs par ta Regex.

Conclusion : j'ai un mï¿œlange des deux types (?).
=> d'ajouter ta regex ï¿œ mon script, malheureusement elle ne peut pas
remplacer, avantageusement les n lignes de mon script.

>> >donc, question, en js y a t'il un moyen pour passer d'UTF-8-MAC ï¿œ UTF-8
>> >tout court ?
> Appelons les choses par leur nom. Tu veux passer d'une forme de
> normalisation dï¿œcomposï¿œe (NFD ou NFKD) en une forme de normalisation
> composï¿œe (NFC ou NFKC). C'est sans doute possible, mais pour ce qui
> est de supprimer les accents la forme dï¿œcomposï¿œe est quand mï¿œme plus
> simple, cf. supra.
>

OUI, c'est sï¿œr, mais enfin, avec ruby oï¿œ j'ai du trouver un workaround
car la conversion UTF-8MAC <-> UTF-8 ne marche pas (?), j'ai une exemple
concret, un petit script qui me renomme et dï¿œplace les "Capture
d'ï¿œcran..." (avec un ï¿œ dï¿œcomposï¿œ donc) ben mï¿œme aprï¿œs une tentative de
conversion UTF-8MAC -> UTF-8 je ne suis pas parvenu ï¿œ faire une regex
dessus (je prends la date pour en changer le format et la mettre en tï¿œte
du nom de fichier).
J'ai donc modifiï¿œ, je ne sais plus comment, une option de ScreenCapture
pour avoir "Capture ecran..." (donc sans ï¿œ ni ' qui gï¿œne aussi)

Avec ruby c'est un peu le bronx, le globing fonctionne bien, mais pas
les regex, dans le cas de caractï¿œres dï¿œcomposï¿œs.

En tout cas, merci beaucoup pour ton aide prï¿œcieuse.

Olivier Miakinen

unread,

Dec 16, 2013, 10:36:31 AM12/16/13

to

Le 16/12/2013 15:50, Une Bévue a écrit :
> Le 16/12/13 12:10, Olivier Miakinen a écrit :
>> Essaye d'ajouter ceci à ta liste :

>> r = r.replace(new RegExp(/\u0300/g),"");
>
> je n'ai pas pu tester, mon exemple ne comportant pas d'accent grave.

Ok, j'aurais pu te proposer \u0301 pour les accents aigus, mais j'avais
supposé que les accents graves étaient plus intéressants puisqu'en
français on en a sur plus de lettres (à, è, ù). De toute manière, si
l'exemple complet fonctionne c'est parfait.

>> Si cela vire bien les accents graves, il est probable que ceci devrait
>> retirer tous les accents :
>> r = r.replace(new RegExp(/[\u0300-\u036f]/g),"");
>

> bon, là j'ai testé, sur les exemples que j'avais, je dois dire que je ne
> sais ni d'où ça vient, ces caractères décomposés, ni comment en
> fabriquer à volonté.

Tiens, cadeau : <http://hapax.qc.ca/conversion.fr.html>.

Tu saisis E9 dans le cadre en haut à gauche pour avoir un é en
précomposé dans celui en haut à droite ; 65 301 pour un é en
décomposé (en principe, ça doit être le cas dans cette phrase).

> Bon, mon test donne :
> $ ./unaccent-test2.js

> source = 'Gelée de thé'
> source.unaccent() = 'gelée de thé'

> source.replace(...) = 'Gelee de the'

> source = 'Confiture pëches brugnons'
> source.unaccent() = 'confiture pëches brugnons'

C'est un poëte, celui qui mange des pëches... ;-)

> source.replace(...) = 'Confiture peches brugnons'

> source = 'Gelée pommes cassis'
> source.unaccent() = 'gelée pommes cassis'

> source.replace(...) = 'Gelee pommes cassis'

> source = 'photocopie livre de Lenôtre'

> source.unaccent() = 'photocopie livre de lenotre'

> source.replace(...) = 'photocopie livre de Lenôtre'
>
> alors source : les caractères en entrée, source.unaccent() : les
> caractères moulinés par mon script et enfin source.replace(...) : les
> caractères filtrés par ta Regex.
>
> Conclusion : j'ai un mélange des deux types (?).

Oui, donc ce n'est pas un texte en forme canonique du tout puisqu'il
y a un mélange des deux.

> => d'ajouter ta regex à mon script, malheureusement elle ne peut pas

> remplacer, avantageusement les n lignes de mon script.

Normal. Ma regexp n'est *que* pour les formes décomposées, les tiennes
ne sont *que* pour les formes précomposées. Note que conserver les deux
permet de gérer aussi les mélanges de formes C et D, par exemple ce
superbe c cédille accent-aigu ḉ composé d'un ç suivi d'un accent.

>>> >donc, question, en js y a t'il un moyen pour passer d'UTF-8-MAC à UTF-8

>>> >tout court ?
>> Appelons les choses par leur nom. Tu veux passer d'une forme de

>> normalisation décomposée (NFD ou NFKD) en une forme de normalisation
>> composée (NFC ou NFKC). C'est sans doute possible, mais pour ce qui
>> est de supprimer les accents la forme décomposée est quand même plus
>> simple, cf. supra.
>
> OUI, c'est sûr, mais enfin, avec ruby où j'ai du trouver un workaround

> car la conversion UTF-8MAC <-> UTF-8 ne marche pas (?),

é précomposé vers é décomposé :
r = r.replace(new RegExp(/\u00E9/g),"e\u0300");

é décomposé vers é précomposé :
r = r.replace(new RegExp(/e\u0300/g),"\u00E9");

(à adapter en ruby, ou chercher une bibliothèque qui fasse ça pour tous
les caractères d'un coup)

> j'ai une exemple
> concret, un petit script qui me renomme et déplace les "Capture
> d'écran..." (avec un é décomposé donc) ben même après une tentative de
> conversion UTF-8MAC -> UTF-8 je ne suis pas parvenu à faire une regex
> dessus (je prends la date pour en changer le format et la mettre en tête
> du nom de fichier).
> J'ai donc modifié, je ne sais plus comment, une option de ScreenCapture
> pour avoir "Capture ecran..." (donc sans é ni ' qui gène aussi)

>
> Avec ruby c'est un peu le bronx, le globing fonctionne bien, mais pas

> les regex, dans le cas de caractères décomposés.

Il n'y a pas un groupe de discussions sur usenet-fr pour parler de ruby ?

Olivier Miakinen

unread,

Dec 16, 2013, 10:39:03 AM12/16/13

to

Le 16/12/2013 16:36, j'écrivais bêtement :

>
> é précomposé vers é décomposé :
> r = r.replace(new RegExp(/\u00E9/g),"e\u0300");
>
> é décomposé vers é précomposé :
> r = r.replace(new RegExp(/e\u0300/g),"\u00E9");

Lire 0301 à la place de 0300 bien sûr.

Une Bévue

unread,

Dec 16, 2013, 10:57:31 AM12/16/13

to

Le 16/12/2013 16:36, Olivier Miakinen a écrit :
> Ok, j'aurais pu te proposer \u0301 pour les accents aigus, mais j'avais
> supposé que les accents graves étaient plus intéressants puisqu'en
> français on en a sur plus de lettres (à, è, ù). De toute manière, si
> l'exemple complet fonctionne c'est parfait.

ben ouais.

>>> >>Si cela vire bien les accents graves, il est probable que ceci devrait
>>> >>retirer tous les accents :
>>> >> r = r.replace(new RegExp(/[\u0300-\u036f]/g),"");
>> >
>> >bon, là j'ai testé, sur les exemples que j'avais, je dois dire que je ne
>> >sais ni d'où ça vient, ces caractères décomposés, ni comment en
>> >fabriquer à volonté.
> Tiens, cadeau :<http://hapax.qc.ca/conversion.fr.html>.

Ah super cette page.

> Tu saisis E9 dans le cadre en haut à gauche pour avoir un é en
> précomposé dans celui en haut à droite ; 65 301 pour un é en
> décomposé (en principe, ça doit être le cas dans cette phrase).

non, ton é me donne E9, mais bon p'tet que Thunderbird mouline behind de
scene...

>> >Bon, mon test donne :

<snip />

>> >
>> >Conclusion : j'ai un mélange des deux types (?).
> Oui, donc ce n'est pas un texte en forme canonique du tout puisqu'il
> y a un mélange des deux.
>
>> >=> d'ajouter ta regex à mon script, malheureusement elle ne peut pas
>> >remplacer, avantageusement les n lignes de mon script.

> Normal. Ma regexp n'est*que* pour les formes décomposées, les tiennes
> ne sont*que* pour les formes précomposées. Note que conserver les deux

> permet de gérer aussi les mélanges de formes C et D, par exemple ce
> superbe c cédille accent-aigu ḉ composé d'un ç suivi d'un accent.
>

>> >OUI, c'est sûr, mais enfin, avec ruby où j'ai du trouver un workaround
>> >car la conversion UTF-8MAC <-> UTF-8 ne marche pas (?),
> é précomposé vers é décomposé :

> r = r.replace(new RegExp(/\u00E9/g),"e\u0301");

OK, super, à tester.

> é décomposé vers é précomposé :

> r = r.replace(new RegExp(/e\u0301/g),"\u00E9");

>
> (à adapter en ruby, ou chercher une bibliothèque qui fasse ça pour tous
> les caractères d'un coup)

ben "normalement" oui iconv est incorporé, mais d'ailleurs la transfo
UTF-8MAC -> UTF-8, avec iconv, n'existe que sur mac, sur linux yapas.

<snip />

> Il n'y a pas un groupe de discussions sur usenet-fr pour parler de ruby ?
>

si, mais pas très actif, et ils s'en foutent, des pbs d'encodage, amha...

mais bon, je vais poser une question derechef...

Olivier Miakinen

unread,

Dec 16, 2013, 11:40:20 AM12/16/13

to

Le 16/12/2013 16:57, Une Bévue a écrit :
>
>> Tiens, cadeau : <http://hapax.qc.ca/conversion.fr.html>.
>
> Ah super cette page.

Oui, c'est vraiment un outil extraordinaire pour la gestion des
problèmes de jeux de caractères. Note que le bouquin cité sur la
page est très bien aussi.

>> Tu saisis E9 dans le cadre en haut à gauche pour avoir un é en
>> précomposé dans celui en haut à droite ; 65 301 pour un é en
>> décomposé (en principe, ça doit être le cas dans cette phrase).
>
> non, ton é me donne E9, mais bon p'tet que Thunderbird mouline behind de
> scene...

Peut-être Thunderbird sur Mac ? Parce qu'avec SeaMonkey ou Thunderbird
sur Windows il y a bien une différence entre é et é quand je les
copicolle sur la page ci-dessus. Et je crois bien qu'il en va de même
avec Linux.

é et é -> E9 20 65 74 20 65 301
^^ ^^^^^^

Cordialement,
--
Olivier Miakinen

Une Bévue

unread,

Dec 16, 2013, 12:16:18 PM12/16/13

to

Le 16/12/2013 17:40, Olivier Miakinen a écrit :
> Oui, c'est vraiment un outil extraordinaire pour la gestion des
> problèmes de jeux de caractères. Note que le bouquin cité sur la
> page est très bien aussi.

oui, c'est quand même beaucoup à lire pour quelques &@#merdes de temps
en temps; mais bon c'est récurrant..
surtout au changement de release.

au fait la page fonctionne très bien offline...

>>> >>Tu saisis E9 dans le cadre en haut à gauche pour avoir un é en
>>> >>précomposé dans celui en haut à droite ; 65 301 pour un é en
>>> >>décomposé (en principe, ça doit être le cas dans cette phrase).
>> >
>> >non, ton é me donne E9, mais bon p'tet que Thunderbird mouline behind de
>> >scene...
> Peut-être Thunderbird sur Mac ? Parce qu'avec SeaMonkey ou Thunderbird
> sur Windows il y a bien une différence entre é et é quand je les
> copicolle sur la page ci-dessus. Et je crois bien qu'il en va de même
> avec Linux.
>
> é et é -> E9 20 65 74 20 65 301
> ^^ ^^^^^^

ben sur Thunderbird / mavericks ça donne :
E9 20 65 74 20 E9
pas de 65 301...
é et é

Olivier Miakinen

unread,

Dec 16, 2013, 12:55:33 PM12/16/13

to

Le 16/12/2013 18:16, Une Bévue a écrit :
>
>> Note que le bouquin cité sur la page est très bien aussi.
>
> oui, c'est quand même beaucoup à lire pour quelques &@#merdes de temps
> en temps;

Je n'en parlais pas dans l'optique de résoudre des problèmes ponctuels,
mais plutôt de se cultiver. C'est sûr que peu de monde doit en avoir
besoin.

>> Peut-être Thunderbird sur Mac ? Parce qu'avec SeaMonkey ou Thunderbird
>> sur Windows il y a bien une différence entre é et é quand je les
>> copicolle sur la page ci-dessus. Et je crois bien qu'il en va de même
>> avec Linux.
>>
>> é et é -> E9 20 65 74 20 65 301
>> ^^ ^^^^^^
>
> ben sur Thunderbird / mavericks ça donne :
> E9 20 65 74 20 E9
> pas de 65 301...
> é et é

Toutes mes condoléances. Du coup, la page est beaucoup moins utile pour
toi qu'elle ne l'est pour moi.

Si ça peut te rassurer néanmoins, sache que ta réponse avec Thunderbird
n'a pas détruit la différence entre les deux, du coup c'est peut-être
plutôt l'action de copier-coller qui la détruit, ou alors le navigateur
dans lequel tu colles les caractères. Si ce n'était pas le cas, je te
suggère d'essayer avec Firefox ou SeaMonkey.

Cordialement,
--
Olivier Miakinen

Une Bévue

unread,

Dec 16, 2013, 3:26:25 PM12/16/13

to

Le 16/12/13 18:55, Olivier Miakinen a écrit :

ben oui, le copier/coller pourrait altérer...

quelqu'un s'intéresse à ça coté ruby ))

avec des copiés/collés de mon fichier vers le terminal, j'ai obtenu :
$ echo 'é' | od -t x1c
0000000 65 cc 81 0a
e ́ ** \n
0000004

$ echo 'ë' | od -t x1c
0000000 65 cc 88 0a
e ̈ ** \n
0000004

$ echo 'é' | od -t x1c
0000000 c3 a9 0a
é ** \n
0000003

echo 'ô' | od -t x1c
0000000 c3 b4 0a
ô ** \n
0000003

j'ai bien deux é dans le même fichier.

SAM

unread,

Jan 29, 2014, 6:41:47 AM1/29/14

to

Le 16/12/13 18:55, Olivier Miakinen a écrit :

> Le 16/12/2013 18:16, Une Bévue a écrit :
>>
>> ben sur Thunderbird / mavericks ça donne :
>> E9 20 65 74 20 E9

salutatousdeux et bonne année,

Je m'immisce donc

Voilà :

é ça fait \xe8 en truc-bidulé sous javascript

l'ensemble des e accentués devrait alors se traduire par
e = x[ce][89ab]

mais ... je n'y arrive pas

alert('éléphant'.replace(/\xe8/g,'e')); // ok
alert('Éléphant'.replace(/\x[ce]8/g,'e')); // pas de changement

Pourquoi ?

tests sur une page en utf-8 sur Mac

À mon idée les x-trucs sont indépendants du charset de la page
==> tests sur la console de Firefox = même combat

Cordialement,
--
Stéphane Moriaux avec/with iMac-intel 27" & Mac OS X 10.6.8

Olivier Miakinen

unread,

Jan 29, 2014, 12:56:14 PM1/29/14

to

Bonjour,

Le 29/01/2014 12:41, SAM a écrit :
>
> é ça fait \xe8 en truc-bidulé sous javascript

Euh... \xe9. Ou \u00e9. Ou, bien sûr, é.

> l'ensemble des e accentués devrait alors se traduire par
> e = x[ce][89ab]
>
> mais ... je n'y arrive pas

Parce que la séquence d'échappement \xnn ou \unnnn est interprétée avant
même de lancer l'interpréteur JavaScript, et qu'elle représente un seul
et unique caractère. Une séquence commençant par \x[ n'existe pas en
JavaScript.

> alert('éléphant'.replace(/\xe8/g,'e')); // ok

Avec \xe9 je suppose.

> alert('Éléphant'.replace(/\x[ce]8/g,'e')); // pas de changement

alert('Éléphant'.replace(/[\xc8-\xcb\xe8-\xeb]/g,'e'));

Note que c'est équivalent à :

alert('Éléphant'.replace(/[È-Ëè-ë]/g,'e'));

Cordialement,
--
Olivier Miakinen

Olivier Miakinen

unread,

Jan 29, 2014, 5:23:01 PM1/29/14

to

Rebonjour,

Je n'ai pas répondu à la totalité de ton article parce que j'étais
pressé et que je voulais d'abord vérifier ma réponse dans la norme
Ecma-262.

Le 29/01/2014 12:41, SAM a écrit :
>

> tests sur une page en utf-8 sur Mac
>
> À mon idée les x-trucs sont indépendants du charset de la page

Et donc, oui, je le confirme. Même si tu es en charset IBM-850 ou
MacRoman, les séquences \xe9 et \u00e9 représentent toujours le
caractère Unicode U+00E9, c'est-à-dire le « é » (alors qu'à la
position E9 on trouve un Ú en IBM-850 et un È en MacRoman).

Cordialement,
--
Olivier Miakinen

SAM

unread,

Jan 29, 2014, 6:44:44 PM1/29/14

to

Le 29/01/14 18:56, Olivier Miakinen a écrit :

> Le 29/01/2014 12:41, SAM a écrit :
>>
>> je n'y arrive pas
>
> Parce que la séquence d'échappement \xnn ou \unnnn est interprétée avant
> même de lancer l'interpréteur JavaScript, et qu'elle représente un seul
> et unique caractère. Une séquence commençant par \x[ n'existe pas en
> JavaScript.

et donc ... pas de soluce dans ce sens ?

> alert('Éléphant'.replace(/[\xc8-\xcb\xe8-\xeb]/g,'e'));

et puis autant pour i, o, u, c, n, accentués comme-ci comme-çà et les
majuscules de tout ce petit monde ...

> Note que c'est équivalent à :
>
> alert('Éléphant'.replace(/[È-Ëè-ë]/g,'e'));

Sauf qu'il semblerait que notre ami Yvon ait eu qques problèmes sur son
Mac (ses copiés/collés d'un soft à l'autre, dirait-on) et que je pensais
que ces hexa pouvaient solutionner son soucis.
Même si j'arrive à la fumée des cierges :-/

Je n'ai pas pu tester "e´".replace(/\xe9/g,'e')
ne sachant pas reconnaitre quand un é prend cette forme découpée
(rencontrée fréquemment lors de copiés/collés depuis des PDFs)

e = xe8 xe9 xea xeb = [\xe8-\xeb]
a = xe0 xe1 xe2 xe3 xe4 xe5 = [\xe0-\xe5]
c = xe7
i = xec xed xee xef = [\xec-\xef]
o = xf2 xf3 xf4 xf5 xf6 = [\xf2-\xf6]
n = xf1
u = xf9 xfa xfb xfc = [\xf9-\xfc]

Finalement, en pensant à compter en hexa, on arrive à réduire un peu.

Cordialement,
--
Stéphane Moriaux avec/with iMac-intel 27" & Mac OS X 10.6.8

* Anglais - détecté
* Anglais
* Français
* Espagnol

* Anglais
* Français
* Espagnol

<javascript:void(0);>

SAM

unread,

Jan 29, 2014, 8:38:13 PM1/29/14

to

Le 30/01/14 00:44, SAM a écrit :

>
> Sauf qu'il semblerait que notre ami Yvon ait eu qques problèmes sur son
> Mac (ses copiés/collés d'un soft à l'autre, dirait-on) et que je pensais
> que ces hexa pouvaient solutionner son soucis.

J'ai comme la très nette impression que non :-(

<http://stephane.moriaux.pagesperso-orange.fr/truc/accents-non>

Et pourtant je ne "vois" toujours pas ces "e´" :-(

Olivier Miakinen

unread,

Jan 30, 2014, 11:30:59 AM1/30/14

to

Bonjour,

Le 30/01/2014 02:38, SAM a écrit :
>>
>> Sauf qu'il semblerait que notre ami Yvon ait eu qques problèmes sur son
>> Mac (ses copiés/collés d'un soft à l'autre, dirait-on) et que je pensais
>> que ces hexa pouvaient solutionner son soucis.
>
> J'ai comme la très nette impression que non :-(

L'impression que j'avais pour ma part était que nous avions résolu le
problème d'Yvon, qui avait des caractères décomposés « lettre ascii »
suivi d'un « accent » au lieu de caractères précomposés « lettre avec
accent en un seul caractère ».

Je ne peux pas vérifier car les articles, vieux de plus d'un mois, ont
disparu de mon serveur.

> <http://stephane.moriaux.pagesperso-orange.fr/truc/accents-non>

C'est bien le cas sur cette page, où année est codé 61 6E 6E 65 301 65
et non pas 61 6E 6E E9 65.

> Et pourtant je ne "vois" toujours pas ces "e´" :-(

Dans ta fonction convert, rajoute la ligne suivante :
x = x.replace(/[\u0300-\u036f]/g,'');

Tiens, je le fais pour toi, en complétant même un peu :

function convert(x) {
// Suppression des accents seuls dans U+0300..U+036F :
x = x.replace(/[\u0300-\u036f]/g,'');

// Suppression des accents des caractères précomposés
// de U+00A0..U+00FF, et remplacement des ligatures,
// d'abord en majuscules :
x = x.replace(/[\xc0-\xc5]/g,'A');
x = x.replace(/\xc6/g,'AE');
x = x.replace(/\xc7/g,'C');
x = x.replace(/[\xc8-\xcb]/g,'E');
x = x.replace(/[\xcc-\xcf]/g,'I');
x = x.replace(/\xd1/g,'N');
x = x.replace(/[\xd2-\xd6]/g,'O');
x = x.replace(/[\xd9-\xdc]/g,'U');
x = x.replace(/\xdd/g,'Y');

// puis en minuscules :
x = x.replace(/\xdd/g,'ss');
x = x.replace(/[\xe0-\xe5]/g,'a');
x = x.replace(/\xe6/g,'ae');
x = x.replace(/\xe7/g,'c');
x = x.replace(/[\xe8-\xeb]/g,'e');
x = x.replace(/[\xec-\xef]/g,'i');
x = x.replace(/\xf1/g,'n');
x = x.replace(/[\xf2-\xf6]/g,'o');
x = x.replace(/[\xf9-\xfc]/g,'u');
x = x.replace(/[\xfd\xff]/g,'y');

// Dans U+0100..U+017F on ne gère que ceux qui sont dans
// ISO-8859-15 (alors qu'on pourrait l'étendre aux 121
// autres) :
x = x.replace(/\u0152/g,'OE');
x = x.replace(/\u0153/g,'oe');
x = x.replace(/\u0160/g,'S');
x = x.replace(/\u0161/g,'s');
x = x.replace(/\u0178/g,'Y');
x = x.replace(/\u017d/g,'Z');
x = x.replace(/\u017e/g,'z');

// Et on retourne le résultat
return x;
}

Olivier Miakinen

unread,

Jan 30, 2014, 11:34:45 AM1/30/14

to

[supersedes à cause de ß = \xdf et non \xdd]

Bonjour,

Le 30/01/2014 02:38, SAM a écrit :
>>
>> Sauf qu'il semblerait que notre ami Yvon ait eu qques problèmes sur son
>> Mac (ses copiés/collés d'un soft à l'autre, dirait-on) et que je pensais
>> que ces hexa pouvaient solutionner son soucis.
>
> J'ai comme la très nette impression que non :-(

L'impression que j'avais pour ma part était que nous avions résolu le
problème d'Yvon, qui avait des caractères décomposés « lettre ascii »
suivi d'un « accent » au lieu de caractères précomposés « lettre avec
accent en un seul caractère ».

Je ne peux pas vérifier car les articles, vieux de plus d'un mois, ont
disparu de mon serveur.

> <http://stephane.moriaux.pagesperso-orange.fr/truc/accents-non>

C'est bien le cas sur cette page, où année est codé 61 6E 6E 65 301 65
et non pas 61 6E 6E E9 65.

> Et pourtant je ne "vois" toujours pas ces "e´" :-(

Dans ta fonction convert, rajoute la ligne suivante :
x = x.replace(/[\u0300-\u036f]/g,'');

Tiens, je le fais pour toi, en complétant même un peu :

function convert(x) {
// Suppression des accents seuls dans U+0300..U+036F :
x = x.replace(/[\u0300-\u036f]/g,'');

// Suppression des accents des caractères précomposés
// de U+00A0..U+00FF, et remplacement des ligatures,
// d'abord en majuscules :
x = x.replace(/[\xc0-\xc5]/g,'A');
x = x.replace(/\xc6/g,'AE');
x = x.replace(/\xc7/g,'C');
x = x.replace(/[\xc8-\xcb]/g,'E');
x = x.replace(/[\xcc-\xcf]/g,'I');
x = x.replace(/\xd1/g,'N');
x = x.replace(/[\xd2-\xd6]/g,'O');
x = x.replace(/[\xd9-\xdc]/g,'U');
x = x.replace(/\xdd/g,'Y');

// puis en minuscules :

x = x.replace(/\xdf/g,'ss');

SAM

unread,

Jan 30, 2014, 10:06:26 PM1/30/14

to

Le 30/01/14 17:34, Olivier Miakinen a écrit :

> [supersedes à cause de ß = \xdf et non \xdd]

Hein ?
C'est à quel propos ?
car π = \x3C0

> Bonjour,

>
> L'impression que j'avais pour ma part était que nous avions résolu le
> problème d'Yvon, qui avait des caractères décomposés « lettre ascii »
> suivi d'un « accent » au lieu de caractères précomposés « lettre avec
> accent en un seul caractère ».

Je crois que oui.
(mais ... Yvon a vite fait d'embrouiller et d'en trouver d'autres ;-) )

> Je ne peux pas vérifier car les articles, vieux de plus d'un mois, ont
> disparu de mon serveur.

Chez Free, ici j'ai les fils depuis fev 2013

Tu ne gardes pas copies de tes interventions dans ton lecteur ?

>> <http://stephane.moriaux.pagesperso-orange.fr/truc/accents-non>
>
> C'est bien le cas sur cette page, où année est codé 61 6E 6E 65 301 65
> et non pas 61 6E 6E E9 65.

Comment fais-tu pour voir ça ?
Mon Mac ne me montre que des caractères *normaux*
(qque soit le logiciel utilisé)

> Dans ta fonction convert, rajoute la ligne suivante :
> x = x.replace(/[\u0300-\u036f]/g,'');

Ça c'est cool quand ont sait où trouver les accents.

> Tiens, je le fais pour toi, en complétant même un peu :

Merci merci

Olivier Miakinen

unread,

Jan 31, 2014, 3:18:25 AM1/31/14

to

Bonjour,

Le 31/01/2014 04:06, SAM a écrit :
> Le 30/01/14 17:34, Olivier Miakinen a écrit :
>> [supersedes à cause de ß = \xdf et non \xdd]
>
> Hein ?
> C'est à quel propos ?

J'avais écrit :

x = x.replace(/\xdd/g,'Y');

puis par copier-coller :

x = x.replace(/\xdd/g,'ss');

au lieu de :

x = x.replace(/\xdf/g,'ss');

> car π = \x3C0

Je suppose que tu veux dire π = \u03C0 (l'écriture \x3C0 donne deux
caractères, d'abord un \3C c'est-à-dire un <, puis un 0) mais je ne
vois pas le rapport avec ß qui est \xdf ou \u00df.

>> L'impression que j'avais pour ma part était que nous avions résolu le
>> problème d'Yvon, qui avait des caractères décomposés « lettre ascii »
>> suivi d'un « accent » au lieu de caractères précomposés « lettre avec
>> accent en un seul caractère ».
>
> Je crois que oui.
> (mais ... Yvon a vite fait d'embrouiller et d'en trouver d'autres ;-) )

;-)

>> Je ne peux pas vérifier car les articles, vieux de plus d'un mois, ont
>> disparu de mon serveur.
>
> Chez Free, ici j'ai les fils depuis fev 2013
>
> Tu ne gardes pas copies de tes interventions dans ton lecteur ?

Non, ça ne me semble pas nécessaire.

>>> <http://stephane.moriaux.pagesperso-orange.fr/truc/accents-non>
>>
>> C'est bien le cas sur cette page, où année est codé 61 6E 6E 65 301 65
>> et non pas 61 6E 6E E9 65.
>
> Comment fais-tu pour voir ça ?

Là : <http://hapax.qc.ca/conversion.fr.html>, par copier-coller.

> Mon Mac ne me montre que des caractères *normaux*
> (qque soit le logiciel utilisé)

C'est normal que tu ne voie pas la différence dans ce qui est affiché,
quel que soit le codage utilisé un é doit rester un é. C'est juste le
codage interne qui change (et que l'on voit par copier-coller dans la
page citée plus haut).

>> Dans ta fonction convert, rajoute la ligne suivante :
>> x = x.replace(/[\u0300-\u036f]/g,'');
>
> Ça c'est cool quand ont sait où trouver les accents.

Les lettres : <http://www.unicode.org/fr/charts/index.html>
Les symboles : <http://www.unicode.org/fr/charts/symbols.html>
(et tout ça en français sur le site officiel !)

Dans la page sur les symboles, colonne de gauche, la troisième
grande rubrique est intitulée « Diacritiques ». Elle contient
un premier lien de même nom qui pointe sur :
<http://www.unicode.org/fr/charts/PDF/U0300.pdf>.

Cordialement,
--
Olivier Miakinen

SAM

unread,

Jan 31, 2014, 7:02:23 AM1/31/14

to

Le 31/01/14 09:18, Olivier Miakinen a écrit :

> Bonjour,
>
> Le 31/01/2014 04:06, SAM a écrit :
>
>> car π = \x3C0
>
> Je suppose que tu veux dire π = \u03C0 (l'écriture \x3C0 donne deux
> caractères, d'abord un \3C c'est-à-dire un <, puis un 0)

Ha? çà ne fait pas 3,1416etdespoussières ?
Nan & fé :-( alert('\x03c0') ---> 'C0'

> mais je ne vois pas le rapport avec ß qui est \xdf ou \u00df.

c'est du grec quoi
(faute d'être du chinois auquel je n'entends rien non plus)
(en réponse à ton anglicisme 'supercedes')

>> Tu ne gardes pas copies de tes interventions dans ton lecteur ?
>
> Non, ça ne me semble pas nécessaire.

Je ne sais pas jeter, je garde tout.
Je viens d'acheter un DD qui va doubler mon stockage !!!

>>>> <http://stephane.moriaux.pagesperso-orange.fr/truc/accents-non>
>>>
>>> C'est bien le cas sur cette page, où année est codé 61 6E 6E 65 301 65
>>> et non pas 61 6E 6E E9 65.
>>
>> Comment fais-tu pour voir ça ?
>
> Là : <http://hapax.qc.ca/conversion.fr.html>, par copier-coller.

Ha! d'ac ! faut que j'archive sec derechef !

>> Ça c'est cool quand ont sait où trouver les accents.
>

> <http://www.unicode.org/fr/charts/PDF/U0300.pdf>.

Ouille Aille Aille ! houla la ! du PDF !? avec tous les tracas de
copier/coller !!!

Olivier Miakinen

unread,

Jan 31, 2014, 10:51:44 AM1/31/14

to

Le 31/01/2014 13:02, SAM m'a répondu :

>>
>>> car π = \x3C0
>>
>> Je suppose que tu veux dire π = \u03C0 (l'écriture \x3C0 donne deux
>> caractères, d'abord un \3C c'est-à-dire un <, puis un 0)
>
> Ha? çà ne fait pas 3,1416etdespoussières ?
> Nan & fé :-( alert('\x03c0') ---> 'C0'

C'est dans la norme, que j'avais consultée avant de te répondre
avant-hier. Les séquences \xnn et \unnnn donnent toutes les deux
un caractère Unicode, mais avec \x tu n'as accès qu'aux caractères
entre U+0000 et U+00FF alors qu'avec \u tu peux aller jusqu'à
U+FFFF.

>> mais je ne vois pas le rapport avec ß qui est \xdf ou \u00df.
>
> c'est du grec quoi
> (faute d'être du chinois auquel je n'entends rien non plus)

Ça y est, je comprends ce que tu voulais dire ! En fait non, ce n'est
pas du grec mais de l'allemand.

Le grec beta : β
L'allemand eszet : ß (équivalent en ASCII = ss)

> (en réponse à ton anglicisme 'supercedes')

(c'est bien un anglicisme, mais 'supersedes' -- et en l'occurrence je
l'emploie car c'est le vrai nom d'entête, comme quand j'écris From,
Subject ou Reply-To).

>>>>> <http://stephane.moriaux.pagesperso-orange.fr/truc/accents-non>
>>>>
>>>> C'est bien le cas sur cette page, où année est codé 61 6E 6E 65 301 65
>>>> et non pas 61 6E 6E E9 65.
>>>
>>> Comment fais-tu pour voir ça ?
>>
>> Là : <http://hapax.qc.ca/conversion.fr.html>, par copier-coller.
>
> Ha! d'ac ! faut que j'archive sec derechef !

Oh que oui, c'est un outil IN-DIS-PEN-SABLE.

>>> Ça c'est cool quand ont sait où trouver les accents.
>>
>> <http://www.unicode.org/fr/charts/PDF/U0300.pdf>.
>
> Ouille Aille Aille ! houla la ! du PDF !? avec tous les tracas de
> copier/coller !!!

D'autant qu'on ne peut pas copier/coller les caractères depuis ce
fichier PDF puisqu'ils sont montrés sous forme d'image. Il ne peut
d'ailleurs pas en être autrement car, par définition, quand un
nouveau caractère est ajouté à l'une de ces pages, il faudra un
certain temps avant qu'il soit accessible dans les ordinateurs.

En fait le fichier PDF me sert juste à obtenir le numéro du caractère
qui m'intéresse. Ensuite je le saisis dans la case qui va bien de la
page <http://hapax.qc.ca/conversion.fr.html> déjà citée (encore une
preuve qu'elle est indispensable) et je peux alors faire un copier/
coller du caractère.

Cordialement,
--
Olivier Miakinen

SAM

unread,

Jan 31, 2014, 5:41:56 PM1/31/14

to

Le 31/01/14 16:51, Olivier Miakinen a écrit :

> Le 31/01/2014 13:02, SAM m'a répondu :
>>>

>> alert('\x03c0') ---> 'C0'
>

> Les séquences \xnn et \unnnn donnent toutes les deux
> un caractère Unicode, mais avec \x tu n'as accès qu'aux caractères
> entre U+0000 et U+00FF alors qu'avec \u tu peux aller jusqu'à
> U+FFFF.

Mon éditeur-texte m'a enduit (involontairement et par ignorance de ma
part) d'erreur en présentant une sorte de table de correspondance de
caractères pour ce qu'il appelle 'escape' sous la forme %XX à %XXXX dont
je tire par déduction fine les \xXX
J'aurais pu me rappeler que seule cette forme (à 2 caractères) fonctionne.

>> c'est du grec quoi
>> (faute d'être du chinois auquel je n'entends rien non plus)
>
> Ça y est, je comprends ce que tu voulais dire ! En fait non, ce n'est
> pas du grec mais de l'allemand.

Pas grave ! Pareil au même !
Je n'y comprends rien non plus !

Ha! si!
"Der Amboss"
(ce qui ne nous mènera pas loin dans une conversation, car avec ma
prononciation ils ne vont pas bien comprendre l'allusion
cf. <http://bilder.eyneburg.eu/norbert/Amboss.jpg>
et s'ils comprennent ça risque d'être pire encore! )

> Le grec beta : β
> L'allemand eszet : ß (équivalent en ASCII = ss)

pas facile de voir la différence,
surtout si on n'en voit qu'un des 2 à la fois

>> (en réponse à ton anglicisme 'supercedes')
>
> (c'est bien un anglicisme, mais 'supersedes'

Mon correcteur orthographique refuse les 2 !
alors tu peux bien garer ta mercedes où tu veux, en bas, en haut ! à ton
choix.

> En fait le fichier PDF me sert juste à obtenir le numéro du caractère
> qui m'intéresse.

Je t'admire d'arriver à y voir qque chose !
ça m'a l'air d'un ramassis de crottes de souris étiquetées en majuscules
bien voyantes !

Mais peut-être ne regardes-tu que la page 33 ?

La meilleure étant le 0342 qui me parle D'ACCENT CIRCONFLEXE là où je
devine un tilde

Mébon ... c'est leur soupe, hein?!

M'enfin il faudra me dire en quoi ça diffère du 0303

C'est plus de la soupe mais de la mélasse !

> Ensuite je le saisis dans la case qui va bien de la
> page <http://hapax.qc.ca/conversion.fr.html> déjà citée (encore une
> preuve qu'elle est indispensable) et je peux alors faire un copier/
> coller du caractère.

J'y ai appliqué la méthode inverse en entrant un accent aigu dans la
case kivabienhossi et ça ne m'a rien trouvé de ressemblant à 0301
... plutôt un truc du genre ´

N'ayant réussi à n'avoir aucun sigle de diacritique dans le cadre des
caractères je ne suis pas non plus arrivé à en faire de copie :-(

Ça m'a évité les erreurs de collage ;-)

Cordialement,
--
Stéphane Moriaux avec/with iMac-intel 27" & Mac OS X 10.6.8

* Français - détecté

* Anglais
* Français
* Espagnol

* Anglais
* Français
* Espagnol

<javascript:void(0);>

* Auro-détection

Olivier Miakinen

unread,

Feb 1, 2014, 8:58:01 AM2/1/14

to

Bonjour,

Le 31/01/2014 23:41, SAM a écrit :
>
> Mon éditeur-texte m'a enduit (involontairement et par ignorance de ma
> part) d'erreur en présentant une sorte de table de correspondance de
> caractères pour ce qu'il appelle 'escape' sous la forme %XX à %XXXX dont
> je tire par déduction fine les \xXX

Ok.

> J'aurais pu me rappeler que seule cette forme (à 2 caractères) fonctionne.

Si tu veux ne retenir qu'une forme d'encodage des caractères Unicodes
en ASCII dans JavaScript, je te conseille de retenir plutôt celle
avec quatre chiffres hexa : \uXXXX. Elle fonctionnera pour tous les
caractères entre U+0000 et U+FFFF, et en outre elle t'évitera de
penser que cela pourrait désigner un caractère différent selon que
tu est en ISO-Latin1, en MacRoman ou en UTF-8.

>> Le grec beta : β
>> L'allemand eszet : ß (équivalent en ASCII = ss)
>
> pas facile de voir la différence,
> surtout si on n'en voit qu'un des 2 à la fois

Ça dépend probablement de ta police de caractères d'affichage. Pour moi,
avec DejaVu Mono, la différence est assez marquée.

> [super(s/c)edes]

> Mon correcteur orthographique refuse les 2 !

Tout comme il refuserait DOCTYPE ou http-equiv. Dans un cas comme dans
l'autre : on s'en fout. ;-)

>> En fait le fichier PDF me sert juste à obtenir le numéro du caractère
>> qui m'intéresse.
>
> Je t'admire d'arriver à y voir qque chose !
> ça m'a l'air d'un ramassis de crottes de souris étiquetées en majuscules
> bien voyantes !
>
> Mais peut-être ne regardes-tu que la page 33 ?

Oui, c'est surtout la description que je regarde et pas l'aspect
graphique, lequel n'est qu'un exemple et peut varier grandement
d'une police à une autre, voire même en fonction du contexte.

> La meilleure étant le 0342 qui me parle D'ACCENT CIRCONFLEXE là où je
> devine un tilde

Tu as raison ! Du coup, j'ai eu la curiosité de chercher à en savoir
plus puisqu'il est dit que c'est un diacritique grec :
<https://www.google.fr/search?q=accent+circonflexe+grec>
<http://fr.wikipedia.org/wiki/Diacritiques_de_l%27alphabet_grec>
<cit.>
la modulation descendante puis montante (↗↘) [est représentée par]
l'accent circonflexe ^, parfois tracé comme un tilde.
</cit.>

Et voilà, donc c'est un accent qui se nomme circonflexe, et que l'on
représente parfois comme notre propre accent circonflexe mais parfois
comme un tilde. Vu que ce fichier PDF ne représente qu'un seul dessin
par caractère, il leur fallait choisir.

> M'enfin il faudra me dire en quoi ça diffère du 0303

L'usage. Le 0303 n'est pas un accent circonflexe grec, et il n'est
jamais représenté par un ^. Il faut savoir que la norme Unicode ne
définit pas des représentations graphiques de caractères, mais plutôt
des concepts.

De la même manière, le caractère grec alpha majuscule ressemble
beaucoup à notre caractère a majuscule (respectivement Α et A)
et pourtant ce sont bien deux caractères Unicode distincts.

>> Ensuite je le saisis dans la case qui va bien de la
>> page <http://hapax.qc.ca/conversion.fr.html> déjà citée (encore une
>> preuve qu'elle est indispensable) et je peux alors faire un copier/
>> coller du caractère.
>
> J'y ai appliqué la méthode inverse en entrant un accent aigu dans la
> case kivabienhossi et ça ne m'a rien trouvé de ressemblant à 0301

Ça, c'est normal aussi, car je ne vois pas comment ton éditeur de
texte pourrait générer un accent aigu tout seul, sans le mettre sur
une lettre. Je parle bien sûr du DIACRITIQUE ACCENT AIGU d'Unicode.
Mais si tu regardes dans le PDF à la page 34 tu y trouveras plein
de caractères qui y ressemblent :

0301
DIACRITIQUE ACCENT AIGU
= accent tonique
= accent aigu grec, oxeia grec, accent
→ 0027 ' apostrophe
→ 00B4 ́ accent aigu
→ 02B9 ʹ lettre modificative prime
→ 02CA lettre modificative accent aigu
→ 0384 ́ caractère grec accent

> ... plutôt un truc du genre ´

&#180 c'est U+00B4. Regarde bien dans la liste ci-dessus, il y est.

> N'ayant réussi à n'avoir aucun sigle de diacritique dans le cadre des
> caractères je ne suis pas non plus arrivé à en faire de copie :-(

Jouons un peu avec <http://hapax.qc.ca/conversion.fr.html>.

1) Dans le second cadre, « Caractères », tu tapes « aeiou ».
2) Dans le premier, « Numéros de caractères en hex », tu vois apparaître
« 61 65 69 6F 75 ». Tu ajoutes alors « 301 » derrière chacun des
nombres : « 61 301 65 301 301 69 301 6F 301 75 301 ».
3) Tu reviens au cadre de droite, et tu lis : « áé́íóú ».

Tu peux essayer avec d'autres lettres et d'autres accents. Par exemple :
nsp -> 6E 73 70
6E 301 73 301 70 301 -> ńśṕ
6E 300 73 302 70 303 -> ǹŝp̃

Soyons fou :
ç -> E7
E7 301 -> ḉ

Selon le choix des caractères et des diacritiques, et selon ce que ta
police de caractères autorise, tu peux même parfois empiler plusieurs
diacritiques au dessus (ou en dessous) d'une même lettre.

Cordialement,
--
Olivier Miakinen

SAM

unread,

Feb 1, 2014, 10:53:15 PM2/1/14

to

Le 01/02/14 14:58, Olivier Miakinen a écrit :

> Bonjour,
>
> Le 31/01/2014 23:41, SAM a écrit :
>>
>
>>> Le grec beta : β
>>> L'allemand eszet : ß (équivalent en ASCII = ss)
>>
>> pas facile de voir la différence,
>> surtout si on n'en voit qu'un des 2 à la fois
>
> Ça dépend probablement de ta police de caractères d'affichage. Pour moi,
> avec DejaVu Mono, la différence est assez marquée.

fonte "courier" je crois
sinon, probablement, Lucida Grande
(ils m'ont tout complexifié dans Thunderbird)

Mais c'est surtout parce que je rencontre très rarement ceux là

> Soyons fou :
> ç -> E7
> E7 301 -> ḉ

Č č
Ċ LATIN CAPITAL LETTER C WITH DOT ABOVE

c dingue !

Olivier Miakinen

unread,

Feb 2, 2014, 10:48:00 AM2/2/14

to

Le 02/02/2014 04:53, SAM a écrit :
>>
>>>> Le grec beta : β
>>>> L'allemand eszet : ß (équivalent en ASCII = ss)
>>>
>>> pas facile de voir la différence,
>>> surtout si on n'en voit qu'un des 2 à la fois
>>
>> Ça dépend probablement de ta police de caractères d'affichage. Pour moi,
>> avec DejaVu Mono, la différence est assez marquée.
>
> fonte "courier" je crois
> sinon, probablement, Lucida Grande

Je n'ai pas Lucida Grande, mais en effet en Courier New c'est assez
semblable. Il faut remarquer que la barre de gauche descend en dessous
de la ligne d'écriture pour le β et pas pour le ß.

Dans la police DejaVu Sans Mono, on arrive plus à distinguer dans le
ß un s long (comme en ancien français¹) suivi d'un s normal :
<http://cjoint.com/14fe/DBcqOHGdh06_capture_du_2014-02-02_16:39:35.png>.

(¹ <http://fr.wikipedia.org/wiki/S_long>
<http://upload.wikimedia.org/wikipedia/commons/thumb/5/51/Variantes_contextuelles_latines3.svg/474px-Variantes_contextuelles_latines3.svg.png>)

> Č č
> Ċ LATIN CAPITAL LETTER C WITH DOT ABOVE
>
> c dingue !

... des heures d'amusement !