parsing de boletínes oficiales

32 views
Skip to first unread message

Free Insight

unread,
Jun 13, 2016, 8:03:47 AM6/13/16
to openkratio
¡Hola a todo el mundo!
Soy Daniel, ingeniero de Software, de Alemania.  Durante el Transparency Camp Europe me han dicho el nombre openkratio y que vosotros trabajais en un campo similar como yo.
Quiero fundar un base de datos libre de leyes y estadísticas económicas: http://www.free-insight.org/
Dentro de poco me gustaría empezar a leer unos boletínes oficiales en una manera (semi-) automática. 
Ya he utilizado un Software de OCR ("ABBY FineReader 12") para los ficheros de pdf que tengo, pero hay muchos errores de la numeración de artículos/secciónes.
Eso es un problema, porque la estructura correcta de los documentos es necesaria para guardarlas en el base de datos.
Se tendría aplicar un algoritmo especializado en textos legales.
Tal vez alquien ya ha tenido este problema antes?
Gracias por cualquier ayuda o ideas!
Daniel

Pablo Martín Muñoz

unread,
Jun 14, 2016, 3:15:28 AM6/14/16
to opend...@googlegroups.com

Hola Daniel.
Un placer verte por esta lista y escuchar que hay gente trabajando en la recopilación y análisis de datos públicos.
Antes que nada comentar que en España hay diferentes formas de obtener las iniciativas: ya sean a través de los boletines oficiales o a través de la propia página de iniciativas mediante listado o buscador.
En Openkratio tenemos un proyecto, cuyo código está liberado en GitHub, llamado Proyecto Colibrí en el que empezamos a trabajar en la recopilación de iniciativas aunque nunca se llegó a probar del todo. Su foco principal eran las votaciones en el Congreso de los Diputados de España pero quisimos ampliar el proyecto. Aquí puedes consultar parte del código que hace el trabajo de obtener las iniciativas [1].
Por otro lado, el año pasado estuvimos desarrollando en la empresa en la que trabajo [2] un extractor de iniciativas basado en los boletines oficiales y escrito en R para el proyecto Tipi Ciudadano [3]. Puedes consultarlo en [4]. Ahora estamos evolucionando este proyecto para que funcione mejor y reducir la tasa de fallos (que aunque sea pequeña pero existe).
Cualquier cosa me la puedes preguntar por aquí y espero poder ayudarte.
Salud*

Ps.: Gran iniciativa la de

[1] https://github.com/openkratio/proyecto-colibri/blob/master/scrap/spiders/inits.py
[2] http://enreda.coop
[3] http://tipiciudadano.es
[4] https://github.com/CIECODE-Madrid/tipi/tree/master/r-scripts

José Félix Ontañón

unread,
Jun 21, 2016, 2:37:05 PM6/21/16
to lista OpenData Sevilla, Pablo Castellano
Buenas Daniel, encantado.

¿Es necesario parsear los PDF del BOE? El BOE, a través de su servicio de datos abiertos (https://www.boe.es/datosabiertos/) facilita un API XML para consumir tanto el sumario de disposiciones por BOE como el contenido de las disposiciones.


Daniel, te recomiendo que eches un vistazo al proyecto libreborme de Pablo Castellano, a quién pongo en copia. Pablo se ha currado esepedazoproyecto consumiendo los XML del BORME (primo hermano del BOE). Creo que todo el codebase de libreborme puede ser un gran aporte para que construyas el base de datos de leyes:


Un saludo

--
Has recibido este mensaje porque estás suscrito al grupo "openkratio" de Grupos de Google.
Para anular la suscripción a este grupo y dejar de recibir sus mensajes, envía un correo electrónico a opendatasev...@googlegroups.com.
Para publicar en este grupo, envía un correo electrónico a opend...@googlegroups.com.
Visita este grupo en https://groups.google.com/group/opendatasev.
Para ver esta conversación en el sitio web, visita https://groups.google.com/d/msgid/opendatasev/aa48e6ff-43a2-40ce-91cc-7ec8a8bca6aa%40googlegroups.com.
Para acceder a más opciones, visita https://groups.google.com/d/optout.



--

Pablo Martín Muñoz

unread,
Jun 29, 2016, 11:05:17 AM6/29/16
to opend...@googlegroups.com, José Félix Ontañón, Pablo Castellano
@Felix Cuando me refería a boletines eran los del Congreso de los diputados (BOCG) y no al BOE.

+1 al gran proyecto del tocayo Pablo.
--
Sent from my Android device with K-9 Mail. Please excuse my brevity.

Free Insight

unread,
Jun 30, 2016, 7:59:34 AM6/30/16
to openkratio, x...@pr3ssh.net
Hola Pablo,
gracias por tu respuesta! Siento no haber escrito antes, hoy me he dado cuenta que todas las noticias de aquí han ido a la carpeta dcorreo basura de mi movíl...
Me gusta la página de tipi ciudadano. Tambien te felecito por tu puesto de trabajo, porque trabajar para los fines de utilidad pública (como profesión, no solo en el tiempo libre) es genial!
Como lo veo yo estos dos proyectos coligen unos metadatos de votaciones/iniciativas, Pero me parece que los datos crudos ya son disponible en un formato procesable (como html).
Mi mayor problema de ahora no es descubrir los metadatos de documentos o leer unas paginas de web, sino tengo que trabajar con documentos de pdf, porque muchas leyes (viejas) alemanas son disponibles solo en este formato.
Por eso no  puedo utilizar el código al presente, tal vez en el futuro.;-)
Sin embargo, intento a utilizar varias fuentes de informacion como dices en tu frase segundo. Por ejemplo la Unión Europea ofrece unos servicios geniales en el campo de datos abiertos.
Atentamente,
Daniel

Free Insight

unread,
Jun 30, 2016, 8:30:42 AM6/30/16
to openkratio, pa...@anche.no
Hola Félix!
No he aclarado que quiero leer los boletínes alemanes. Mi plan es grabar textos legales (con metadatos y interconexiónes) de la legislación alemana (tambien los convenios multilaterales) y europea.
Espero que este ejemplo va a mostrar bien la capacidad del systema y tal vez gente de otros paises van a contribuir más leyes despues. Para este paso las informaciones que me has dado son muy útiles!
El problema con el derecho alemán es que muchos textos legales solo son disponibles en pdf. Eso es porque estoy compilandolos no solamente para el presente, sino a partir del an~o 1960.
Parece que Espan~a es mas avanzada en este aspecto, por eso no habeis tenido esta tarea que tengo yo ahora...
Muchas gracias y un saludo!
Daniel

Pablo Martín Muñoz

unread,
Jun 30, 2016, 8:44:33 AM6/30/16
to Free Insight, openkratio
Suerte con eso Daniel. Los PDFs son lo peor del mundo y si son tan antiguos me huele a que o se usa OCR (cruzando los dedos) o nada de nada.

Free Insight

unread,
Jul 2, 2016, 8:09:00 AM7/2/16
to openkratio, daniel.m...@googlemail.com, x...@pr3ssh.net
Gracias, de verdad sera muy dificil/laborioso...
Reply all
Reply to author
Forward
0 new messages