ANSI y UNICODE

23 views
Skip to first unread message

Fernando Gómez

unread,
Dec 5, 2006, 9:26:28 AM12/5/06
to cat...@googlegroups.com
Reenvío al grupo este mensaje que sólo me llegó a mí (supongo que por
error). --Fernando

---------- Forwarded message ----------
From: yani <yani...@hotmail.com>
Date: Dec 5, 2006 11:21 AM
Subject: ANSI y UNICODE
To: Catali...@googlegroups.com


Hola, mi nombre es yanina y necesitaria saber sobre los codigos de ANSI
y UNICODE. Estamos trabajando con MARC 21 (Isismarc, Winisis), bajo el
sistema ANSI, y lo que no tenemos claro es lo siguiente:

* Como configurar la base para que acepte UNICODE o que otra base
necesitamos?
* Como saber si nuestros registros son compatibles con MARC-8?

Si alguien puede ayudarme con esto, lo voy a agradecer.

gracias.
Saludos

Fernando Gómez

unread,
Dec 14, 2006, 5:07:51 PM12/14/06
to Catalis
Hace unos días yanina planteó unas dudas sobre ANSI y UNICODE, y hoy
llegó una consulta similar de Mónica. ¿Casualidad o trabajan juntas?
:-)

Esto de la codificación de caracteres es un tema fundamental pero que
no termino de comprender en detalle. Catalis usa la codificación
Windows-1252 (llamada también "ANSI") [1], y hasta donde sé esto se
debe simplemente a que esa es la codificación utilizada por WXIS,
tanto si se lo usa en un servidor Windows como en un Linux.

Las herramientas de la familia Isis, según tengo entendido, no manejan
Unicode. Por "manejar Unicode" quiero decir no solamente leer y grabar
datos en UTF-8, sino también indizar y recuperar correctamente texto
en Unicode, con una adecuada conversión a mayúsculas y ordenamiento
alfabético [2]. Esto sí es posible con Malete (ex OpenIsis) [3], pero
por el momento no estamos trabajando con esa herramienta. Y habrá que
ver si alguna de las novedades que presentará Bireme [4] tiene
relación con Unicode.

Por ahora, aquí nos venimos arreglando aceptablemente con estas
limitaciones, pero supongo que tarde o temprano habrá que tomarse
Unicode en serio. En realidad, no necesitamos meternos con Unicode para
encontrar problemas: desde que LC hace más o menos un año comenzó a
entregar sus registros solamente como MARC-8 o UTF-8 (en lugar del
Latin-1 que extrañamente venía usando), venimos topándonos con
registros que no podemos grabar tal como vienen, dado que esas
codificaciones permiten representar miles de caracteres, mientras que
con Windows-1252 no tenemos más que 256 (de hecho, tenemos unos
cuantos menos).

A menos que Bireme y/o Unesco presenten próximamente una nueva
generación de herramientas Isis con soporte para Unicode, creo que
tendremos que mirar para el lado de Malete. Quiero decir, hacer que
Catalis se base en Malete, en lugar de WXIS.

Si tuviera que encontrar *hoy* un software para trabajar con registros
MARC en Unicode, empezaría por visitar la página
http://www.loc.gov/marc/marcservice.html. Entre las opciones gratuitas
veo que aparece el MarcEdit.

Ya que estamos, permítanme ser curioso: ¿por qué necesitan trabajar
con Unicode?

Espero haber aclarado algo, y por favor escriban, tanto para consultar
más, como para explicar mejor las cosas si alguien ve el panorama con
más claridad que yo.

Saludos.

--Fernando


[1] http://en.wikipedia.org/wiki/Windows-1252
[2] http://www.unicode.org/unicode/reports/tr10/
[3] http://malete.org/Doc/CharSet
[4]
http://espacio.bvsalud.org/boletim.php?newsletter=20061208&newsLang=es&newsName=Newsletter%20BVS%20067%2008/diciembre/2006&articleId=11092931200609

Horacio Degiorgi

unread,
Dec 14, 2006, 5:26:25 PM12/14/06
to cat...@googlegroups.com
Hola Fernando:
no tengo el wxis a mano ahora mismo pero estoy casi seguro que la versión de linux trabaja solo con archivos Latin1 no windows-1252 ( hay diferencias ), es por ello que son incompatibles los isos generados en DOS y Linux y deben ser pasados por herramientas como el recode o el iconv. 
Con respecto a Unicode se supone que bireme no tiene otra alternativa para seguir creciendo que desarrollar usando UTF-8 o derivados. Esto porque cada vez más se tiene que acercar a XML e internacionalización y son necesarias estas tablas de caracteres. No es sencillo porque en ansi un caracter es un byte y en unicode necesitás más de uno para representar los caracteres especiales.
Creo que no aclaré mucho pero por lo menos les dejo mis saludos

--
Horacio Degiorgi
http://blog.codigophp.com
Mendoza - Argentina


http://www.loc.gov/marc/marcservice.html . Entre las opciones gratuitas

Mónica

unread,
Dec 19, 2006, 10:26:35 AM12/19/06
to Catalis
Hola Fernando, te respondo a tu inquietud: si trabajamos juntas con
Yanina.
Entonces, vos ya nos dijiste que con Catalis no podemos hacer nada con
respecto a lo de Unicode, y vos me habías recomendado ver el Malete
(openIsis), tenés idea de cómo trabaja? Y si tiene que correr sobre
linux, o se puede usar en windows? Porque hasta ahora no encontramos
algo que nos sirva para Unicode. Estamos usando también MarcReport
para reportar los errores que tengamos con la base de datos IsisMarc y
también usamos MarcEdit. Pero hasta ahora no encontramos la solución
al tema de unicode. Espero una respuesta y muchas gracias

Mónica

Reply all
Reply to author
Forward
0 new messages