First meetup

10 views
Skip to first unread message

Juan Manuel Garcia

unread,
Oct 1, 2011, 10:25:49 PM10/1/11
to crawley-developers
Muchachos les comento las cosas mas destacables para resumir el
brianstorming que hicimos en la reunión de hoy.

******************************************************

Scraping de páginas similares:

Problema: En el ejemplo del crawler de pipy existe una clase Scraper
que sólo es utilizada para obtener las urls que el usuario del
framework quiere scrapear.

Posible Mejora: Se podría eliminar la necesidad de tener que obtener
las urls que el usuario necesita scrapear si agregamos una cierta
lógica que reconozca páginas "similares" y utilice la misma clase de
Scraper para todas ellas.
El algoritmo para llevar a cabo esta tarea debería emplear una
reconocedor de patrones de html dado por la url del usuario para
comparlo con otras páginas del mismo dominio. Según estuvimos
hablando, este algoritmo debería implementar la lógica de decisión de
las similitud mediante la ponderación de distintos criterios de
"matching" entre los htmls en cuestión.
Hay que hacer un poco de IA muchachos ;-). Este laburo me gustaría
dejarselo a David y Ernesto, que, por lo que veo, podrían hacer buen
equipo para combinar la búsqueda de similitudes en el html y un
algoritmo de IA que tome decisiones.

******************************************************

GUI para scraping:

Problema: Actualmente sólo tenemos a medio desarrollo un DSL que no se
adapta a usuarios que no tienen conocimientos de programación.

Posibles Soluciones: Implementar una GUI para permitirle al usuario
del framework scrapear páginas.
Dado el problema de seguridad detectado por los browsers ante la cross-
domain communication entre iframes se proponen 2 soluciones:
- HTML 5 parece ser la más viable y permite esta comunicacion
(Testear)
- Proxy server para hacer ver a las urls como si fuesen de nuestro
domain (Posible problema legal).
- Descargar la url junto con el contenido estático y servirlas desde
nuestro server (Posible problema legal).

Este laburo lo podriamos encarar entre Daniel y yo. Ya que estuvimos
investigando algo al respecto.

Yo, por el momento, voy a seguir con detalles de implementación
menores en el framework.

Espero que en algún momento nos juntemos nuevamente ;-).

Saludos!
Reply all
Reply to author
Forward
0 new messages