Oi Rafael. A discussão acabou ficando mais no
http://groups.google.com/group/parlamento-aberto, que é onde a maioria
das pessoas envolvidas já estava. Se aumentar muito o volume lá a
gente muda pra cá.
Sobre o projeto, você pode encontrar mais informações no nosso wiki:
http://wiki.github.com/legisdados/legisdados
Lá tem o código, informações sobre convenções, estrutura de diretórios, etc.
Em termos de tecnologia, é livre. Scripts podem ser feitos em qualquer
linguagem de programação, usando qualquer biblioteca que você quiser.
Eu, por exemplo, estou usando Ruby. O Eduardo Leoni está usando R.
Desde que a saída e as convenções de nomes e estruturas de diretório
sejam seguidas, o resto é aberto.
>
> Eu comecei a fazer algo parecido, antes de encontrar o
> congressoaberto. Eu estava fazendo em ruby, usando a biblioteca
> scrubyt. Até onde fiz -- que não foi muita coisa -- estava bem
> confortável de mexer. Era basicamente uma questão de especificar o
> XPath. De toda forma, estou interessado em contribuir.
Show de bola! Eu nunca usei scrubyt, é legal? Eu tenho usado
basicamente wget, Hpricot e expressões regulares. Por exemplo:
http://github.com/legisdados/legisdados/blob/c0ab9a34e7f0359342841b857144650e8adcd7ac/lib/br_chamber/scraping_legislators.rb
>
> A propósito, vocês já tentaram pedir acesso direto aos dados desses
> orgãos públicos? Houve alguma justificativa para não liberar?
Já sim. Estamos em discussão com o pessoal da Câmara pra conseguirmos
acesso. A restrição é puramente política, mais por inércia mesmo
("deixa do jeito que tá"). Então estamos atacando nas duas frentes.
Idealmente, os scripts de raspagem ficarão obsoletos quando
conseguirmos o acesso, mas também não vamos ficar parados esperando ;)
Bem-vindo ao projeto! Qualquer dúvida é só perguntar!
Abraço,
Helder
>
> []'s
> Rafael
--
http://helderribeiro.net
http://twitter.com/obvio171
Mobile: +55 (19) 9182-7595
Emerson Vinicius - Desenvolvimento Livre
Twitter: @emersonvinicius
Msn: ers_d...@hotmail.com
Skype: emersonvinicius
http://www.emersonvinicius.com.br/
2009/10/30 Helder Ribeiro <hel...@gmail.com>:
Uma versão em PHP do que?