Depois de umas conversas com o Eduardo Leoni resolvemos juntar forças
e criar um projeto spin-off do CongressoAberto e do ParlamentoAberto
chamado LegisDados.
Ambos estávamos repetindo trabalho de raspar os dados da Câmara e
mantendo os scripts dentro da nossa aplicação, sem que houvesse uma
necessidade real pra esse acoplamento.
Por isso criamos o projeto LegisDados com o objetivo de ter um
repositório centralizado de scripts de raspagem de dados relativos ao
Legislativo brasileiro e independentes de aplicação.
No momento eu apenas copiei os scripts que já havia escrito para o
Parlamento Aberto, e o Eduardo fará o mesmo com os scripts do
CongressoAberto. Depois os adaptaremos para se tornarem de propósito
geral e utilizáveis por qualquer um.
O projeto está no github em:
http://github.com/obvio171/legisdados
E a documentação será mantida em:
http://wiki.github.com/obvio171/legisdados
Por enquanto estamos raspando apenas a Câmara Federal, mas pretendemos
fazer o mesmo com o Senado, com todas as Assembléias Legislativas
estaduais e todas as Câmaras Municipais. Tem muito trabalho pra fazer,
então precisamos da sua ajuda :)
Ah, e pra não entulhar nenhuma dessas listas com um monte de emails
sobre os detalhes sórdidos da raspagem, criei uma lista em
http://groups.google.com/group/legisdados para abrigar as discussões
técnicas. Qualquer dúvida é só dar um grito.
Abraços,
Helder Ribeiro
http://helderribeiro.net
http://trac.parlamentoaberto.org
Legal!Duas sugestões:1- comitar também os arquivos gerados (csv) no repositório, numa pasta data ou algo do tipo aí o controle de versão serve tanto p/ o código qto p/ os dados. Fica tipo um cache p/ quem não quer ou não precisa rodar tudo de novo p/ obter os dados.
2- seria bom uma tabelinha no wiki dizendo as URLs que os scripts atuais ja cobrem e quais páginas ainda estão sem raspagem implementada, assim quem quiser contribuir tem algumas sugestões de onde ajudar.
Acho que isso é legal de fazer fora do repositório. Se comitarmos os
dados no repositório, ele vai ficar muito grande muito rápido,
principalmente quando começarmos a raspar proposições, emendas, etc.
Isso vai não só atrapalhar quem quiser clonar o repositório pra
desenvolver, mas vai também estourar a quota de 300mb de hospedagem do
Github (que é um limite "soft", mas mesmo assim não é bom abusar).