2009/10/26 Vitor Calejuri <
ondeosfrang...@gmail.com>:
> Legal e tal termos outro repositório de onde podemos baixar
> os dados (caso eles fiquem indisponiveis), porém tem um desvantagem que é a
> integridade dos dados (mais especificamente, a assinatura de origem).
>
> Como garantir a integridade dos dados oficias? Alguem já pensou num esquema
> de assinaturas, ou mais basicamente HASH's ? Acho que devemos pensar num
> esquema (mesmo que básico) de assinar ou hashear esses dados de forma que
> possamos garantir que os dados são válidos e oficiais (evitando gente
> maliciosa).
Todo hash feito por nós mesmos seria inválido, porque serviria apenas
pra certificar de que os dados são os mesmos que *nós* provimos. Sem
que a Câmara tenha o seu próprio hash, não há como darmos esse tipo
de garantia.
Acho que o que projetos semelhantes pelo mundo fazem
(
http://govtrack.us -- EUA --,
http://ukparse.kforge.net/parlparse/ --
Reino Unido) é se posicionarem como um lugar conveniente pra outras
pessoas terem acesso aos dados de uma maneira melhor, mas sem darem
nenhuma garantia.
Quem sabe mais pra frente, se conseguíssemos cooperação da Câmara,
eles poderiam assinar eletronicamente um hash diário do repositório em
rsync. Mas isso é beeem pra frente.
> E isso tem uma vantagem de podermos falar em "REVISOES" dos dados em si.
> Fica relativamente fácil sabermos quando a câmara atualizou os dados, e
> sobre
> que dados estamos trabalhando.
Isso ia ser interessante mesmo. Pros dados de texto (e até as fotinhas
3x4) que a gente raspa talvez um simples repositório git só de dados
(hospedado em outro lugar que não o github, que só dá 300mb) seja uma
boa. Talvez até como uma alternativa ao rsync. Eu achei que talvez svn
fosse ocupar menos espaço, mas aparentemente não:
http://blog.affien.com/archives/2008/07/08/gits-versus-svns-storage-efficiency/
Caso a gente resolva disponibilizar pdfs e outros dados mais tipo
"blob" mesmo, talvez algo como CouchDB ou CloudKit seja melhor.