Mineria de datos para "Quien manda"

79 views
Skip to first unread message

Mar Canet

unread,
May 4, 2013, 6:29:07 AM5/4/13
to civi...@googlegroups.com
Hola a todos, 

No se si teneis algo hecho para "Quien manda". Estuve mirando de hacer scrapper para sacar los datos de los boards de las empresas que cotizan a bolsa que tienen que ser públicos:
https://scraperwiki.com/scrapers/board_directors_companies/

Si quereis hablamos como organizarnos.

Pablo Martín Muñoz

unread,
May 4, 2013, 2:46:15 PM5/4/13
to civi...@googlegroups.com
Hey! Buenisimo eso Mar. Nosotros desde OpenKratio y mas concretamente desde el Proyecto Colibri tamnbien hemos ofrecido toda aquella ayuda que sea necesaria... A ver como se puede ir armando esto.

Pablo Martín Muñoz

unread,
May 4, 2013, 2:50:40 PM5/4/13
to civi...@googlegroups.com
Por cierto Mar, veo que hay problemas en el scraping a la hora de parsear las tildes espanholas de los nombres y demas nO? Has solucionado eso? Digo porque sale como formato HTML...


El sábado, 4 de mayo de 2013 12:29:07 UTC+2, Mar Canet escribió:

David Cabo

unread,
May 5, 2013, 1:34:57 PM5/5/13
to civi...@googlegroups.com
 Hola Mar, Pablo,

 Nosotros hemos empezado a trabajar en Quién Manda esta semana, antes teníamos que cerrar cosas que teníamos pendientes (y aún nos queda un poco de planificación previa). Hemos empezado hablando de la parte de estructura de la web y UX con un diseñador, y comenzando a ver qué fuentes tenemos disponibles. La idea de la web es que sea suficientemente atractiva para una "persona normal" (no friki de estos temas), y para eso queremos utilizar fotos; como esta parte es la que está menos clara estamos empezando por ahí, hablando con periodistas y medios.

 Sobre la extracción de los datos, yo no he empezado en serio todavía - quiero ponerme estos días - pero tengo las fuentes oficiales principales localizadas: el BOE, la CNMV, el BORME… Luego habrá que añadir a mano una parte. Para algunas de las fuentes ya hice en su día algunos experimentos con ciertos datos que me interesaban. Por ejemplo, para conseguir datos de empresas cotizadas, en vez de ir a cada una de sus webs puedes ir a la CNMV y sacar sus consejeros.

 Acabo de crear un repo en github con algunos scripts antiguos, tengo que limpiar y subir otras piezas sueltas que tengo por ahí. Creo que lo más fácil es tener un repo por "fuente gorda", y luego uno aparte para la web en sí.

 Aquí está lo de la CNMV, incluyendo los datos extraídos hace unos meses: https://github.com/dcabo/cnmv-parser

/david

Mar Canet

unread,
May 26, 2013, 5:51:23 PM5/26/13
to civi...@googlegroups.com, david...@gmail.com
Hola David y Pablo, 

He mirado los datos que publicaste en Github. He empezado a mirar ha probar de visualizar los datos de board que sacaste. 
https://github.com/mcanet/cnmv-parser/tree/master/cnmv-companies/proto_viz_relations

Por otro lado veo problemas con los datos. Por ejemplo: 
"FUNESPAÑA, S.A.","MAPFRE FAMILIAR COMPAÑIA DE SEGUROS Y REASEGUROS, S.A.",PRESIDENTE,63.800,17/07/2012

El presidente dice que es Mapfre pero es Francisco José Marco Orenes. Pero luego no caudran los nombres con hay con la web. Creo que la mas fiable es la web:
http://accionistas.funespana.es/index.php?opc=11

Además este caso es interesante porque el que ahora es vicepresidente y antes que se fusionara con Mapfre presidente tuvo un problema legal con esta empresa: 

/Mar

David Cabo

unread,
May 28, 2013, 11:10:45 AM5/28/13
to Mar Canet, civi...@googlegroups.com
 Hola Mar,

 He visto la imagen de la visualización que pusiste en Twitter, y poco más de momento porque los últimos cuatro días he estado fuera de casa en conferencias y similares. Gracias.

 Sobre los datos, más que incorrectos yo diría que no suficientemente precisos en este caso concreto, en el que la representación en el consejo no es de una persona, sino de una empresa. Lo que la CNMV dice de Funespaña es Mapfre Familiar es el Presidente [1]. Para saber quién es la persona física que se sienta en la mesa tienes que mirar (a mano) el informe de gobierno corporativo (al que no puedo enlazar porque la web de la CNMV es un churro, pero está ahí), donde dice que es Marco Orenes. 

 Marco Orenes es el consejero delegado de Mapfre Familiar [2], así que todo encaja. Ojo que Mapfre Familiar no es lo mismo que Mapfre SA, que es la matriz, por eso Marco Orenes no aparece en ese consejo de administración.

 Así que los datos son correctos, pero hay cosas que habrá que añadir a mano.

 un saludo,

/david

Mar Canet

unread,
May 28, 2013, 11:31:10 AM5/28/13
to David Cabo, civi...@googlegroups.com
Ok mejor que no sea incorrectos sino imprecisos. Quizá algunos datos
se tendran que agregar a mano.
He estado trabajando un poco más en la visualización de la red. Ya os
haré un screenshot.

Si quereis hablamos un día por skype. Yo vengo por Madrid el 19 de
junio para un dia tengo libre la mañana si podeis quedar, pensaba
pasarme por medialab-prado.

/Mar

2013/5/28 David Cabo <david...@gmail.com>:

David Cabo

unread,
May 28, 2013, 12:38:01 PM5/28/13
to Mar Canet, civi...@googlegroups.com
Sí, va a haber que añadir este tipo de cosas a mano, sin duda.

Y si pasas por Madrid vente a nuestra oficina, detrás del Circo Price, junto a Atocha, y te dejamos una mesa. Y hablamos cuando quieras.

/david

Pablo Martín Muñoz

unread,
May 28, 2013, 2:53:50 PM5/28/13
to David Cabo, civi...@googlegroups.com, Mar Canet

Hola.
Hay veces que son problemas técnicos y otras veces que lo harán así queriendo para confundir. Pero para esas estamos y si hay que meterlas a mano pues habrá que buscar manos (que seguro que sobran).
Me tenéis disponible para un skype o hangout cuando se vea.
Un saludo.

Pablo Martín Muñoz
Open Source Architect & Data Scientist
edipotrebol.es

Mar Canet

unread,
Jun 3, 2013, 11:19:21 AM6/3/13
to Pablo Martín Muñoz, David Cabo, civi...@googlegroups.com
Esta semana, que tal miercoles o jueves para el un skype o hangout?

Mar
 


2013/5/28 Pablo Martín Muñoz <edipo...@gmail.com>

David Cabo

unread,
Jun 3, 2013, 2:02:14 PM6/3/13
to Mar Canet, Pablo Martín Muñoz, civi...@googlegroups.com
 Hola,

 Yo esta semana la tengo muy complicada, pero si queréis hablamos el lunes que viene por la tarde.

 un saludo,

/david

Mar Canet

unread,
Jun 4, 2013, 7:11:49 PM6/4/13
to David Cabo, Pablo Martín Muñoz, civi...@googlegroups.com
ok, la semana que viene va bien


2013/6/3 David Cabo <david...@gmail.com>

Pablo Martín Muñoz

unread,
Jun 7, 2013, 8:24:26 AM6/7/13
to Mar Canet, civi...@googlegroups.com, David Cabo

Creo que si podría el lunes por la tarde o el martes. Estamos en contacto para ver la posibilidad.

Pablo Martín Muñoz
Open Source Architect & Data Scientist
edipotrebol.es

Reply all
Reply to author
Forward
0 new messages