Hola Mar, Pablo,
Nosotros hemos empezado a trabajar en Quién Manda esta semana, antes teníamos que cerrar cosas que teníamos pendientes (y aún nos queda un poco de planificación previa). Hemos empezado hablando de la parte de estructura de la web y UX con un diseñador, y comenzando a ver qué fuentes tenemos disponibles. La idea de la web es que sea suficientemente atractiva para una "persona normal" (no friki de estos temas), y para eso queremos utilizar fotos; como esta parte es la que está menos clara estamos empezando por ahí, hablando con periodistas y medios.
Sobre la extracción de los datos, yo no he empezado en serio todavía - quiero ponerme estos días - pero tengo las fuentes oficiales principales localizadas: el BOE, la CNMV, el BORME… Luego habrá que añadir a mano una parte. Para algunas de las fuentes ya hice en su día algunos experimentos con ciertos datos que me interesaban. Por ejemplo, para conseguir datos de empresas cotizadas, en vez de ir a cada una de sus webs puedes ir a la CNMV y sacar sus consejeros.
Acabo de crear un repo en github con algunos scripts antiguos, tengo que limpiar y subir otras piezas sueltas que tengo por ahí. Creo que lo más fácil es tener un repo por "fuente gorda", y luego uno aparte para la web en sí.
Aquí está lo de la CNMV, incluyendo los datos extraídos hace unos meses:
https://github.com/dcabo/cnmv-parser
/david