Hola, ¿qué tal?
Seguí la sesión de NeedleBase con mucho interés pero acabó sucediendo
lo que pasa con muchos proyectos propietarios y cerrados: que cierran
de la noche a la mañana.
El libro que enlazas dedica varios capítulos a otra herramienta
propietaria, Outwit, con la que pudiera acabar pasando lo mismo.
Además de que los términos de la licencia no están del todo claros.
¿Valdría la pena centrarse en herramientas libres, que están exentas
de ese tipo de problemas?
Por supuesto, tengo que hablar de R y señalar que existen, cuando
menos, un par de paquetes orientados al "web scraping":
1.- scrapeR,
http://cran.r-project.org/web/packages/scrapeR/
2.- Y el más general, XML:
http://cran.r-project.org/web/packages/XML/index.html
Además, claro está, de los beneficios de usar R más allá de la mera
descarga de los datos. Abundan los tutoriales al respecto, como
http://giventhedata.blogspot.com.es/2012/08/r-and-web-for-beginners-part-iii.html
Dicho lo cual, me consta que mucha gente está usando otros lenguajes
de programación, como Python, para esta tarea. Puede verse
http://scrapy.org/ y todo lo que al respecto nos cuenta Google.
Imagino que en el universo Windows (VB, etc.) también existen
herramientas similares (que desconozco enteramente). Y que existirán
librerías análogas en muchos otros lenguajes de programación.
Por eso, me gustaría sugerir el uso de algunas de estas herramientas:
al fin y al cabo, nunca he visto a nadie decir que un periodista de
datos no tenga que tener algo de "hacker".
Un saludo,
Carlos J. Gil Bellosta
http://www.datanalytics.com
El día 16 de septiembre de 2012 09:11, María del Mar cabra valero
<
marcabr...@hotmail.com> escribió: