Hola, anoche me puse a usar (a aprender) scrapy con scrapinghub y lo dejé corriendo . Pusheé el codigo del spider (ver
https://github.com/mgaitan/preciosa/issues/248)
Scrappinghub tiene la opcion de "publicar datasets" (para que queden accesibles para cualquiera, asi que me pareció buena idea hacerlo, ya que los datos del portal son creativecommons.
Si se fijan, separé en 3 clases de items (sucursal, producto (datos unicos) y precio, que asocia id-sucural con id-precio). Como recorre todos los productos publicados para todas las sucursales, son un montón de datos y tarda bastante. Van casi 9 horas y aun no termina
Lo que queda para cerrar #248 es hacer el script de importacion de esos datos a preciosa, muy probablemente usando un "Adaptor" como describimos en un thread reciente y quedó por ser documentado oficialmente.
Otra buena noticia es que descubri que en scrapinghub alguien ya ofrece datasets publicos para los sitios online de jumbo, vea y coto ,
https://app.scrapinghub.com/datasets?provider=acsa, aunque desconozco quien lo mantiene y si los deja corriendo periodicamente.