update de la reunión hoy

11 views
Skip to first unread message

Martin Sarsale

unread,
Aug 24, 2011, 10:28:00 PM8/24/11
to mapa7...@googlegroups.com, b...@hackshackers.com, Gabriel Acquistapace
Estimad@s, les escribo para relatarles brevemente de la reunión de hoy
y como vamos a seguir.

0) Hay varios equipos haciendo proyectos mas o menos similares, con
mas o menos puntos de contacto. Los que conocemos son:

* El de la Asociacion Nunca Mas + Gabriel Acquistapace (drupal, puede
describirlo en un reply, si así lo desea :)
* El que trabaja Matías (describa!)
* El de RED Federal de Sitios de Memoria

Creemos que estaría bueno conseguir una breve descripción de cada uno,
el modelo de datos, ver que podemos cruzar de c/u

1) Luis propuso partir el problema de la identificación de personas,
lugares e hitos en un documento en partes mas pequeñas; en vez de
trabajar con el doc entero, trabajar con los parrafos, pequeños
workers que hagan cosas simples sobre el input que les tocó y le pasen
la tarea al próximo.

Un ejemplo sería "expandir" referencias, por ejemplo:
"Se acusa a Juan Perez (de aqui en adelante 'El Acusado') de [...]. El
Acusado secuestró a [...]"

expandiría las ocurrencias de "El Acusado" en "Juan Perez"

etc

2) Modelo / Base de datos. Por algunos features que deseábamos, Luis
encontró que CouchDB parece ser un mejor candidato para nuestro
data-store que Mongo.

Durante el skype pensamos que couch tenía autoversionado de docs, pero
googlenado un poco encontré que no es taaan automático. Acá hay una
implementación del versionado
http://jchrisa.net/drl/_design/sofa/_list/post/post-page?startkey=%5B%22Versioning-docs-in-CouchDB%22%5D

Un feature que si es interesante de Couch es que hace replicación
bidireccional (y la solución automática de conflictos) y eso podría
usarse para las instalaciones "aisladas" de la aplicación, cuando por
cuestiones legales los docs sobre los que trabajan no pueden ser
públicos, pero les interesa beneficiarse de los datos que si son
públicos.

Acá hay un mongo vs couch (por la gente de mongo)
http://www.mongodb.org/display/DOCS/Comparing+Mongo+DB+and+Couch+DB

Unos amigos trabajan con CouchDB haciendo UbuntuONE y se ofrecieron a
aclararnos dudas y aconsejarnos. Viene un skype próximamente

3) De acá también surgió la pregunta sobre que tan privados son los
documentos privados?
Son tan privados que no pueden salir de la oficina donde están? O son
privados porque están protegidos con un user+passwd?
Pensamos que si eran taaaaaaaaan privados que no se podían sacar
podíamos hacer una especie de Virtual Appliance (
http://en.wikipedia.org/wiki/Virtual_appliance ) con todo lo necesario
para correr.

creo que no me olvido de nada.

Salud!
--
Martin Sarsale
msn: mar...@malditainternet.com
jabber: martin....@gtalk.com
twitter: http://twitter.com/runixo
linkedin: http://www.linkedin.com/in/msarsale
sumavisos: http://www.sumavisos.com

Matías Iturburu

unread,
Aug 25, 2011, 11:25:53 AM8/25/11
to mapa7...@googlegroups.com, b...@hackshackers.com, Gabriel Acquistapace

Buenas. Antes que nada quería pedir disculpas por los problemas de conectividad que me impidieron participar de la reunión de anoche.
Comento entre lineas

2011/8/24 Martin Sarsale <mar...@malditainternet.com>

Estimad@s, les escribo para relatarles brevemente de la reunión de hoy
y como vamos a seguir.

0) Hay varios equipos haciendo proyectos mas o menos similares, con
mas o menos puntos de contacto. Los que conocemos son:

* El de la Asociacion Nunca Mas + Gabriel Acquistapace (drupal, puede
describirlo en un reply, si así lo desea :)
* El que trabaja Matías (describa!)

Describo:
Mi trabajo está enmarcado en las tareas a las que se dedica el Archivo Provincial de la Memoria en Córdoba. Es fundamentalmente, y valga la redundancia, una tarea de *archivo*, o sea, digitalizar y conservar documentos.
En este momento contamos con más de 100.000 páginas escaneadas, entre testimonios brindados en las diferentes causas  por delitos de lesa humanidad que se llevaron a cabo en el Jusgado Federal n°2, memos policiales, fallos, sentencias y un largo etcétera.
Estos documentos digitalizados han sido sometidos a OCR con diferente nivel de éxito.
Además están sistematizados en colecciones utilizando el software de bibliotecología Greenstone Digital Library (http://www.greenstone.org/).

En este momento, y en las condiciones que están los documentos, no son más que un puñado grande de textos.

Una de las tareas que tenemos en constante ejecución es clasificar estos documentos y organizarlos en términos archivísticos.

Por otro lado, gran parte de la gente que está trabajando en el Archivo pertenece a la organización de derechos humanos H.I.J.O.S., la cual viene desarrollando un sistema de consulta e investigación sobre los crímenes de lesa humanidad (llamado Presentes).
Esto es, por un lado un software desarrollado en Visual Basic 5.0 utilizando MySQL 5 y por otro el resultado de 10 años de investigación y desarrollo.
El software es utilizado por el equipo de abogados e investigadores de H.I.J.O.S. para recoger y sistematizar pruebas judiciales que se presentan en las diferentes causas, como consulta para la investigación de casos de apropiación de menores y como consulta para el público en general.

Presentes cuenta con muchisima información fidedigna, con valor de prueba judicial.
Por otro lado, como modelo de datos, representa un nivel importante de detalle de entidades como "Victima", "Represor", "Caída", etc. Voy a tratar de profundizar sobre este aspecto en breve.

En este marco de cosas, venimos avanzando en la empresa de, desde el cuerpo de información en bruto que contamos (documentos de archivo), extraer inteligencia organizada con el nivel de detalle y organización que brinda Presentes, articulando con el gabinete informático de la Facultad de Filosofía y Humanidades de la UNC (que tienen bastante trabajo en archivistica y bibliotecología) y con el Grupo de Procesamiento de Lenguaje Natural de la Facultad de Matemática Astronomía y Física, también de la UNC.

Hasta ahora estas articulaciones no redundaron en implementaciones ni planificaciones de ningún tipo, más que nada ha sido una puesta en común de objetivos y necesidades.

Entendemos que este objetivo es en su totalidad abarcado por los requisitos y expectativas que venimos poniendo en común. Por lo que veíamos viable *encausar* estas articulaciones para que se enmarquen en el desarrollo de mapa76 de manera que podamos generar un producto concreto.

En la semana que viene tenemos una reunión con el Grupo de NLP, Marcelo Yornet (responsable de la parte de digitalización del Archivo y principal programador de Presentes) y yo para poner en común lo que hicimos en Tecnópolis a partir del hackatón y consolidar el equipo que se va a encargar de esto.
 
* El de RED Federal de Sitios de Memoria

El Archivo está en la Red, personalmente no participé en sus encuentros, pero se que Marcelo si. Le puedo pedir que resuma que actividades hay o que otras experiencias conoce.
 

Creemos que estaría bueno conseguir una breve descripción de cada uno,
el modelo de datos, ver que podemos cruzar de c/u


+1
 

1) Luis propuso partir el problema de la identificación de personas,
lugares e hitos en un documento en partes mas pequeñas; en vez de
trabajar con el doc entero, trabajar con los parrafos, pequeños
workers que hagan cosas simples sobre el input que les tocó y le pasen
la tarea al próximo.

Un ejemplo sería "expandir" referencias, por ejemplo:
"Se acusa a Juan Perez (de aqui en adelante 'El Acusado') de [...]. El
Acusado secuestró a [...]"

expandiría las ocurrencias de "El Acusado" en "Juan Perez"

etc

+1
 

2) Modelo / Base de datos. Por algunos features que deseábamos, Luis
encontró que CouchDB parece ser un mejor candidato para nuestro
data-store que Mongo.

Durante el skype pensamos que couch tenía autoversionado de docs, pero
googlenado un poco encontré que no es taaan automático. Acá hay una
implementación del versionado
http://jchrisa.net/drl/_design/sofa/_list/post/post-page?startkey=%5B%22Versioning-docs-in-CouchDB%22%5D

Un feature que si es interesante de Couch es que hace replicación
bidireccional (y la solución automática de conflictos) y eso podría
usarse para las instalaciones "aisladas" de la aplicación, cuando por
cuestiones legales los docs sobre los que trabajan no pueden ser
públicos, pero les interesa beneficiarse de los datos que si son
públicos.

Acá hay un mongo vs couch (por la gente de mongo)
http://www.mongodb.org/display/DOCS/Comparing+Mongo+DB+and+Couch+DB

Unos amigos trabajan con CouchDB haciendo UbuntuONE y se ofrecieron a
aclararnos dudas y aconsejarnos. Viene un skype próximamente

En el trabajo evaluamos CouchDB vs mongo. Couch tiene prestaciones más esotéricas que la hacen a la vez más intrigante e impráctica (Replicación automática, versionado etc).

Encontramos que mongo era preferible porque tenía un acercamiento más práctico y entregó una versión estable más rápido, por lo que las herramientas para trabajar con ella están más maduras que su contraparte en CouchDB, hay más documentación, etc.

Habiendo dicho eso, para que no se me tome como una autoridad en el tema, creo que es como ser hincha de boca o river. Depende a quien le preguntás te va defender a muerte una sobre otra y ámbas resuelven el mismo problema. }

Por ahora supongo que lo más importante es tener una implementación andando, sea en la que sea, así que me parece un detalle que puede resolver aquel que se encargue del ticket.

+1 a tener más información sobre esto (un call con los chicos de u1, etc)
 

3) De acá también surgió la pregunta sobre que tan privados son los
documentos privados?
Son tan privados que no pueden salir de la oficina donde están? O son
privados porque están protegidos con un user+passwd?
Pensamos que si eran taaaaaaaaan privados que no se podían sacar
podíamos hacer una especie de Virtual Appliance (
http://en.wikipedia.org/wiki/Virtual_appliance ) con todo lo necesario
para correr.

Buena pregunta. Voy a preguntar que criterio tiene el archivo para este tema y desarrollar.
 

creo que no me olvido de nada.

Salud!
--
Martin Sarsale
msn: mar...@malditainternet.com
jabber: martin....@gtalk.com
twitter: http://twitter.com/runixo
linkedin: http://www.linkedin.com/in/msarsale
sumavisos: http://www.sumavisos.com



--
Matías Iturburu
Reply all
Reply to author
Forward
0 new messages