Scrapers

15 views
Skip to first unread message

Rafael C. de Almeida

unread,
Oct 30, 2009, 1:20:43 PM10/30/09
to legisdados
Olá,

Me disseram que os scrapers para o site da câmara seriam refeitos e
poderia encontrar mais informações aqui. Então, como vocês estão
fazendo o desenvolvimento? Que linguagem e biblioteca?

Eu comecei a fazer algo parecido, antes de encontrar o
congressoaberto. Eu estava fazendo em ruby, usando a biblioteca
scrubyt. Até onde fiz -- que não foi muita coisa -- estava bem
confortável de mexer. Era basicamente uma questão de especificar o
XPath. De toda forma, estou interessado em contribuir.

A propósito, vocês já tentaram pedir acesso direto aos dados desses
orgãos públicos? Houve alguma justificativa para não liberar?

[]'s
Rafael

Helder Ribeiro

unread,
Oct 30, 2009, 5:44:55 PM10/30/09
to legis...@googlegroups.com
2009/10/30 Rafael C. de Almeida <almei...@gmail.com>:

>
> Olá,
>
> Me disseram que os scrapers para o site da câmara seriam refeitos e
> poderia encontrar mais informações aqui. Então, como vocês estão
> fazendo o desenvolvimento? Que linguagem e biblioteca?

Oi Rafael. A discussão acabou ficando mais no
http://groups.google.com/group/parlamento-aberto, que é onde a maioria
das pessoas envolvidas já estava. Se aumentar muito o volume lá a
gente muda pra cá.

Sobre o projeto, você pode encontrar mais informações no nosso wiki:
http://wiki.github.com/legisdados/legisdados

Lá tem o código, informações sobre convenções, estrutura de diretórios, etc.

Em termos de tecnologia, é livre. Scripts podem ser feitos em qualquer
linguagem de programação, usando qualquer biblioteca que você quiser.
Eu, por exemplo, estou usando Ruby. O Eduardo Leoni está usando R.
Desde que a saída e as convenções de nomes e estruturas de diretório
sejam seguidas, o resto é aberto.

>
> Eu comecei a fazer algo parecido, antes de encontrar o
> congressoaberto. Eu estava fazendo em ruby, usando a biblioteca
> scrubyt. Até onde fiz -- que não foi muita coisa -- estava bem
> confortável de mexer. Era basicamente uma questão de especificar o
> XPath. De toda forma, estou interessado em contribuir.

Show de bola! Eu nunca usei scrubyt, é legal? Eu tenho usado
basicamente wget, Hpricot e expressões regulares. Por exemplo:
http://github.com/legisdados/legisdados/blob/c0ab9a34e7f0359342841b857144650e8adcd7ac/lib/br_chamber/scraping_legislators.rb

>
> A propósito, vocês já tentaram pedir acesso direto aos dados desses
> orgãos públicos? Houve alguma justificativa para não liberar?

Já sim. Estamos em discussão com o pessoal da Câmara pra conseguirmos
acesso. A restrição é puramente política, mais por inércia mesmo
("deixa do jeito que tá"). Então estamos atacando nas duas frentes.
Idealmente, os scripts de raspagem ficarão obsoletos quando
conseguirmos o acesso, mas também não vamos ficar parados esperando ;)

Bem-vindo ao projeto! Qualquer dúvida é só perguntar!

Abraço,

Helder

>
> []'s
> Rafael

--
http://helderribeiro.net
http://twitter.com/obvio171
Mobile: +55 (19) 9182-7595

Emerson Vinicius

unread,
Oct 30, 2009, 9:57:29 PM10/30/09
to legis...@googlegroups.com
Gostaria de fazer uma versão em PHP
sera que tem como?


Emerson Vinicius - Desenvolvimento Livre
Twitter: @emersonvinicius
Msn: ers_d...@hotmail.com
Skype: emersonvinicius
http://www.emersonvinicius.com.br/

2009/10/30 Helder Ribeiro <hel...@gmail.com>:

Helder Ribeiro

unread,
Oct 31, 2009, 8:54:26 PM10/31/09
to legis...@googlegroups.com
2009/10/30 Emerson Vinicius <duke...@gmail.com>:

>
> Gostaria de fazer uma versão em PHP
> sera que tem como?

Uma versão em PHP do que?

Reply all
Reply to author
Forward
0 new messages