Scrapers automaticos

1 view
Skip to first unread message

João Martins

unread,
May 5, 2011, 9:30:20 AM5/5/11
to despesa...@googlegroups.com
Fiz umas altera��es ao scraper da base.gov.pt, para j� o das entidades
fica sem efeito.
O scraper utiliza a tabela "cronjobs", desta forma permite receber como
parametro um nome de um cronjob e executar tendo em conta as suas
propriedades:
Name - Nome do cronjob
LastId - �ltimo Id processado
RunMinutes - N�mero de minutos que o scraper pode correr, por
omiss�o � 4 minutos, porque o HTTP timeout � 5 minutos
LastRun - Data da ultima vez que correu
NextRun - Data da pr�xima vez que deve correr (mesmo que seja
chamado, n�o volta a correr antes desta data)
SleepElapsedMinutes - Quando o scraper nao conseguiu chegar ao
fim dos Ids no tempo dispon�vel, coloca o NextRun = Now+SleepElapsedMinutes
SleepCompletedMinutes - Quando o scraper conseguiu chegar ao
fim dos Ids no tempo dispon�vel, coloca o NextRun =
Now+SleepCompletedMinutes
restart - � um n�mero, que permite definir quando o scraper
chegar ao final quantos Ids volta para tr�s (se este n�mero for
negativo) ou em que Id deve recome�ar (se o numero for positivo).
RunTotais - Defini se deve correr as querys pesadas dos totais

Neste momento � preciso configurar no servidor tarefas para correr,
estes dois links, periodicamente:
http://www.despesapublica.com/_scraper/scraperBase.php?Cronjob=FullBase
http://www.despesapublica.com/_scraper/scraperBase.php?Cronjob=LastBase

Como o servidor � windows sugeria utilizar o scheduled tasks e utilizar
o wget, j� fiz isto uma vez e funcionou bem, seria algo como:
c:\wget\wget.exe -q O null http://aaaaa.com


Reply all
Reply to author
Forward
0 new messages