Scraping para periodistas

41 views
Skip to first unread message

María del Mar cabra valero

unread,
Sep 16, 2012, 3:11:52 AM9/16/12
to lista de probono publico
Hola a todos,

En el grupo de trabajo del Medialab Prado [1] queríamos organizar una sesión de scraping para periodistas. Por un lado, Sergio Leyva ya dio una sesión de Needlebase [2] [3] en enero, pero como el programa ha muerto, pues ya no es una solución. Por otro, con una sesión más larga de unas 2h 30min queríamos aprovechar para dar unos conocimientos básicos a los miembros del grupo y que se animen a seguir aprendiendo a escribir un poco de código.

Alguno de vosotros se ofrece para dar la sesión? Todavía no tengo claras las fechas. Podría ser octubre, diciembre o enero por la tarde. Pero sí necesitaría saber si alguien se anima.

Os dejo un libro de referencia sobre el tema que ha salido recientemente: https://leanpub.com/scrapingforjournalists

Gracias y saludos!

Mar


Carlos J. Gil Bellosta

unread,
Sep 16, 2012, 11:54:13 AM9/16/12
to pro-bono...@googlegroups.com
Hola, ¿qué tal?

Seguí la sesión de NeedleBase con mucho interés pero acabó sucediendo
lo que pasa con muchos proyectos propietarios y cerrados: que cierran
de la noche a la mañana.

El libro que enlazas dedica varios capítulos a otra herramienta
propietaria, Outwit, con la que pudiera acabar pasando lo mismo.
Además de que los términos de la licencia no están del todo claros.

¿Valdría la pena centrarse en herramientas libres, que están exentas
de ese tipo de problemas?

Por supuesto, tengo que hablar de R y señalar que existen, cuando
menos, un par de paquetes orientados al "web scraping":

1.- scrapeR, http://cran.r-project.org/web/packages/scrapeR/
2.- Y el más general, XML: http://cran.r-project.org/web/packages/XML/index.html

Además, claro está, de los beneficios de usar R más allá de la mera
descarga de los datos. Abundan los tutoriales al respecto, como

http://giventhedata.blogspot.com.es/2012/08/r-and-web-for-beginners-part-iii.html

Dicho lo cual, me consta que mucha gente está usando otros lenguajes
de programación, como Python, para esta tarea. Puede verse
http://scrapy.org/ y todo lo que al respecto nos cuenta Google.

Imagino que en el universo Windows (VB, etc.) también existen
herramientas similares (que desconozco enteramente). Y que existirán
librerías análogas en muchos otros lenguajes de programación.

Por eso, me gustaría sugerir el uso de algunas de estas herramientas:
al fin y al cabo, nunca he visto a nadie decir que un periodista de
datos no tenga que tener algo de "hacker".

Un saludo,

Carlos J. Gil Bellosta
http://www.datanalytics.com


El día 16 de septiembre de 2012 09:11, María del Mar cabra valero
<marcabr...@hotmail.com> escribió:

Aitor Moreno

unread,
Sep 17, 2012, 4:29:10 AM9/17/12
to pro-bono...@googlegroups.com, Alberto Labarga, Alonso Usun, Oscar, De la Peña Tejada, Pedro Maria
Hola Mar y Carlos

Tal y cómo viste en el curso de junio, nosotros utilizamos para toda la gestión ETL, incluido el  scraping, RapidMiner, además de Yahopipes y otros... 

Por otro lado, para esas fechas, tendremos ya funcionando una plataforma de Periodismo de Datos, con enlaces directos a fuentes OpenData y libres, en la cuál, los periodistas tendrán la posibilidad de, simplemente definiendo un objetivo, extraer automáticamente los indicadores más relevantes y las explicaciones (o reglas) que contienen esos datos internamente, y de forma automática, podrán llevar esa información a sus "historias", simplemente arrastrando la información, en formato estadístico, de mapa o de reglas...

Creo que puede ser un buen momento para ver casos reales (como el de las elecciones o twitter mostrados), en la plataforma y así, poder animar a los periodistas que acudan a que la utilicen, ya no tienen porqué escribir ni una sola línea de código para poder analizar la información con técnicas avanzadas de Minería de Datos, de forma totalmente transparente a ellos (ya lo hace todo el sistema)...

¿Cómo lo ves?

lo comentamos,
Un saludo,
Aitor Moreno.
Reply all
Reply to author
Forward
0 new messages