Estamos muy contentos que proyecto en http://transparente.gt ya ha logrado recopilar más de 390,000 registros del portal de Guatecompras. Estos datos están publicados en nuestro portal para ser consultados por cualquier usuario, o para descarga para investigaciones más profundas.
Lamentablemente hemos llegado a nuestro límite de cuota de espacio en disco en nuestro servidor para poder seguir recopilando más información.
Actualmente estamos trabajando en buscar patrocinios para poder continuar con nuestro trabajo para poder incrementar nuestro servidor y poder recopilar más datos.
¿De qué forma buscamos patrocinios?
![]() |
Stuardo -StR- Rodríguez | | Mercenary Web Developer | | La Maphpia |
http://maphpia.com | | email: s...@maphpia.com | | g-hangouts: s...@maphpia.com | |
office: +502 2221-9830 | | mobile: +502 4210-8819 | | skype: stuardo_str |
Crees que puedan realizar una integración con amazon s3. Yo pongo la cuenta el espacio es muy barato con ese servicio.
--
--
PHPGT :: Grupo de PHPeros de Guatemala
email: ph...@googlegroups.com
reglas de uso: https://sites.google.com/site/grupophpgt
---
Has recibido este mensaje porque estás suscrito al grupo "PHPGT Grupo de PHPeros de Guatemala" de Grupos de Google.
Para anular la suscripción a este grupo y dejar de recibir sus mensajes, envía un correo electrónico a phpgt+un...@googlegroups.com.
Para acceder a más opciones, visita https://groups.google.com/d/optout.
Crees que puedan realizar una integración con amazon s3. Yo pongo la cuenta el espacio es muy barato con ese servicio.
--
Porque no manejar en código un threashold para lo que se usa de cache?
--
Y pq no sacar un hash de cada pagina ya procesada, así no las tenes que volver a procesar si crashea. Descargas, si hace match con algun hash, descartas y seguis adelante.
--
Por eso, en vez de guardar todo en cache, pq no borrar lo que ya se proceso y guardar las firmas nada mas para saber si es necesario procesar o no.
Montar un Varnish en medio de alguna forma no ayudaría? Obvio son más recursos, pero dejando eso de lado... Ayudaría?
Montar un Varnish en medio de alguna forma no ayudaría? Obvio son más recursos, pero dejando eso de lado... Ayudaría?
Lo entiendo... Ahí es donde sugería el Varnish, entre gtc y el backend
Ahí el back se preocupa por parsear, no por esperar.
--
Arquitectura...
Al backend se le setea por hosts la ip donde estaría el Varnish, al Varnish se le setea de origin el servidor real de gtc, después se crean crons en muchas máquinas que provoquen que Varnish guarde en caché todo, y luego tu aplicación le pide a Varnish en microsegundos... Cachas?
M
Más o menos, con la diferencia que puedes poner a cientos de externos a pedir caché por anticipado... Así el tiempo de espera no lo tiene el scraper.
Digamos que veinte de nosotros ponemos a correr wgets recursivos por las noches... Cachas?
Así el tiempo de espera no lo tiene el scraper.