pas de pot, d'après lynx, tous ces sites sont déclarés comme étant en UTF-8.
je cherche des sites en iso 88-ç ou autre truc à la win* pour les
convertir en UTF-8.
Sergio
unread,
Jun 24, 2012, 3:34:09 AM6/24/12
Delete
You do not have permission to delete messages in this group
Copy link
Report message
Show original message
Either email addresses are anonymous for this group or you need the view member email addresses permission to view the original message
to
Le Sun, 24 Jun 2012 08:18:46 +0200, Une Bévue a écrit :
> pas de pot, d'après lynx, tous ces sites sont déclarés comme étant en
> UTF-8.
Eh bien, ton Lynx à faux.
Firefox, par exemple, indique bien les bons encodages.
Peut-être ton Lynx est-il comme mon Elinks ? Il faut lui indiquer "à la
main" l'encodage de la page.
Une Bévue
unread,
Jun 24, 2012, 12:55:19 PM6/24/12
Delete
You do not have permission to delete messages in this group
Copy link
Report message
Show original message
Either email addresses are anonymous for this group or you need the view member email addresses permission to view the original message
to
Le 24/06/2012 09:34, Sergio a écrit :
> Eh bien, ton Lynx à faux.
Ben oui, je viens de vérifier avec Chrome sous Xubuntu 12.04 un des
sites qui est bien en 8859 Arabic...
> Firefox, par exemple, indique bien les bons encodages.
>
> Peut-être ton Lynx est-il comme mon Elinks ? Il faut lui indiquer "à la
> main" l'encodage de la page.
>
sur Dell / Xubuntu 12.04 j'ai :
.-(~/lib/ruby1.9)----------------------------------------------------(yt@D620)-
`--> lynx --version
Lynx Version 2.8.8dev.9 (12 Jun 2011)
libwww-FM 2.14, SSL-MM 1.4.1, GNUTLS 2.10.5, ncurses 5.9.20110404(wide)
Compilé le linux-gnu Jun 22 2011 09:52:55
Copyrights : Lynx Developers Group,
l'université du Kansas, le CERN, et d'autres contributeurs.
Distribué sous licence GNU General Public License (version 2).
Voyez http://lynx.isc.org/ et d'aide en ligne pour plus d'information.
et sur iMac / Mac OS X Lion, j'ai :
.-(~/lib/ruby1.9)--------------------------------------------------(yt@D620)-
`--> ssh iMac '/opt/local/bin/lynx --version'
Lynx Version 2.8.7rel.1 (05 Jul 2009)
libwww-FM 2.14, SSL-MM 1.4.1, OpenSSL 1.0.1c, ncurses 5.9.20110404
Built on darwin11.1.0 Aug 21 2011 08:15:51
Copyrights held by the Lynx Developers Group,
the University of Kansas, CERN, and other contributors.
Distributed under the GNU General Public License (Version 2).
See http://lynx.isc.org/ and the online help for more information.
You do not have permission to delete messages in this group
Copy link
Report message
Show original message
Either email addresses are anonymous for this group or you need the view member email addresses permission to view the original message
to
Le 24/06/2012 21:48, Paul Gaborit a écrit :
> Comme l'entête fourni par le serveur n'indique pas d'encodage, le
> document (HTML) peut le choisir comme il le souhaite...
>
oui, le document donne d'ailleurs :
<meta http-equiv="Content-Type" content="charset=iso-8859-6">
dans le cas où le serv er n'indique rien, je dois donc me fier au document.
Une Bévue
unread,
Jun 25, 2012, 1:54:59 AM6/25/12
Delete
You do not have permission to delete messages in this group
Copy link
Report message
Show original message
Either email addresses are anonymous for this group or you need the view member email addresses permission to view the original message
to
Le 25/06/2012 07:13, Une Bévue a écrit :
>
> dans le cas où le serv er n'indique rien, je dois donc me fier au document.
bon, maintenant, pour ces pages-là, j'obtiens bien :
You do not have permission to delete messages in this group
Copy link
Report message
Show original message
Either email addresses are anonymous for this group or you need the view member email addresses permission to view the original message
to
Je ne comprend pas ce que vous voulez faire. Pour recevoir une aide
efficace, vous devriez préciser !
Une Bévue
unread,
Jun 25, 2012, 1:05:59 PM6/25/12
Delete
You do not have permission to delete messages in this group
Copy link
Report message
Show original message
Either email addresses are anonymous for this group or you need the view member email addresses permission to view the original message
to
Le 25/06/2012 14:20, Pierre Goiffon a écrit :
> Je ne comprend pas ce que vous voulez faire. Pour recevoir une aide
> efficace, vous devriez préciser !
je cherche/cherchais des sites où l'encodage n'est pas UTF-8 pour :
pouvoir détecter l'encodage et une fois connu convertir en UT-8.
c'est pour tester un/des scripts ruby que je dois mettre à jour suite à
l'évolution future de ruby en matière de transcodage.
bon grâce aux URLs fournies par "Andreas Prilop", plus au dans le fil,
je suis parvenu à faire un petit test qui marche sur presque tous les
sites fournis.
pour certains l'encodage n'est pas reconnu par ruby, résultats provisoires :
ceux où il y a "Encoding::ConverterNotFoundError" n'ont pas été
transcodés, mais ce n'est, peut-être, qu'une question de nom donné par
l'en-tête ou le fichier html à l'encodage qui ne serait pas "normalisé...
Pierre Goiffon
unread,
Jul 2, 2012, 4:14:09 AM7/2/12
Delete
You do not have permission to delete messages in this group
Copy link
Report message
Show original message
Either email addresses are anonymous for this group or you need the view member email addresses permission to view the original message
to
Le 25/06/2012 19:05, Une Bévue a écrit :
> c'est pour tester un/des scripts ruby que je dois mettre à jour suite à
> l'évolution future de ruby en matière de transcodage.
Pas clair ce que vous voulez tester...
Si c'est simplement prendre un flux dans en codage et le sortir
convertit dans un autre codage, alors vous pouvez utiliser un éditeur
comme Unired (http://www.esperanto.mv.ru/UniRed/ENG/) qui gère un très
vaste panel de charset et permet donc de générer des fichiers dans à peu
près tout ce que l'on veut.
SAM
unread,
Jul 2, 2012, 9:19:33 AM7/2/12
Delete
You do not have permission to delete messages in this group
Copy link
Report message
Show original message
Either email addresses are anonymous for this group or you need the view member email addresses permission to view the original message
to
Le 02/07/12 10:14, Pierre Goiffon a écrit :
> Le 25/06/2012 19:05, Une Bévue a écrit :
>> c'est pour tester un/des scripts ruby que je dois mettre à jour suite à
>> l'évolution future de ruby en matière de transcodage.
>
> Pas clair ce que vous voulez tester...
> Si c'est simplement prendre un flux dans en codage et le sortir
> convertit dans un autre codage, alors vous pouvez utiliser un éditeur
non, Yvon veut ça "tout en automatique"
il a déjà une routine qui le fait
mais suite à une évolution du langage de programmation utilisé il doit
tester sa nouvelle routine
> comme Unired (http://www.esperanto.mv.ru/UniRed/ENG/) qui gère un très
> vaste panel de charset et permet donc de générer des fichiers dans à peu
> près tout ce que l'on veut.
Si Unired sait capter un fichier (une liste de fichiers) html sur le Net
puis le sauvegarder sur disque-dur tout en le convertissant en utf-8 (et
correction des meta charset) ça devrait aider
You do not have permission to delete messages in this group
Copy link
Report message
Show original message
Either email addresses are anonymous for this group or you need the view member email addresses permission to view the original message
to
Le 02/07/2012 15:19, SAM a écrit :
> non, Yvon veut ça "tout en automatique"
> il a déjà une routine qui le fait
> mais suite à une évolution du langage de programmation utilisé il doit
> tester sa nouvelle routine
Oui c'est exactement ça.
en fait précédemment ruby utilisait iconv et, dans le futur proche
String#encode('UTF-8', <charset d'origine>)
bon, j'ai testé mon script sur les pages données par Andreas Prilop tout
au début du fil : <4fe5ad9a$0$1744$426a...@news.free.fr>.
Mon script "marche" pour tous les encodages iso vers UTF-8, certains ne
sont pas reconnus, mais bon le vietnamien, je n'utilise pas ...
Comme Ruby est d'origine japonaise, je doute que ça ne s'améliore pas au
fil du temps.
J'ai donc basculé mon script, ça roule en "real life".
Pierre Goiffon
unread,
Jul 6, 2012, 10:30:25 AM7/6/12
Delete
You do not have permission to delete messages in this group
Copy link
Report message
Show original message
Either email addresses are anonymous for this group or you need the view member email addresses permission to view the original message
to
Le 02/07/2012 16:57, Une Bévue a écrit :
>> non, Yvon veut ça "tout en automatique"
>> il a déjà une routine qui le fait
>> mais suite à une évolution du langage de programmation utilisé il doit
>> tester sa nouvelle routine
Ok !
> en fait précédemment ruby utilisait iconv et, dans le futur proche
> String#encode('UTF-8', <charset d'origine>)
Ok...
Je ne sais pas ce qu'il est possible d'intégrer comme librairie en Ruby,
mais en Java il existe quelques librairies comme Rhino.
Une Bévue
unread,
Jul 6, 2012, 10:40:18 AM7/6/12
Delete
You do not have permission to delete messages in this group
Copy link
Report message
Show original message
Either email addresses are anonymous for this group or you need the view member email addresses permission to view the original message
to
Le 06/07/12 16:30, Pierre Goiffon a écrit :
> Je ne sais pas ce qu'il est possible d'intégrer comme librairie en Ruby,
> mais en Java il existe quelques librairies comme Rhino.
Euh, Rhino, j'ai utilisé jadis, c'est pour le JS non ?
ça fait aussi du transcodage ?
Mais bon, ça roule en ruby, heureusement d'ailleurs, le concepteur étant
japonais...