Caros,
a idéia nesta semana 2 é sairmos um pouco da reflexão teorica e botar a mão na massa para começar a moldar o que pode ser essa nossa prática de 'civic hacking'.
Parte desse trabalho engloba a idéia de dados abertos e especificamente a idéia de que precisamos que a informação pública seja disponibilizada desta maneira, para que do outro lado, a sociedade possa aproveitar o aparecimento dos mashups e da chamada web2.0, ganhando a possibilidade de criar e inventar novas leituras, funcionalidades e produtos a partir dos dados existentes - usando as ferramentas do digital para promover transformações reais na política e na sociedade.
Acho que para começar, seria legal discutirmos um pouco entre os pares (e na lista) sobre o que são esses termos em negrito - chaves para a compreensão do nosso problema.
-
O que são e para que servem dados abertos?
- O que é e para que serve informação pública?
- O que são e para que servem mashups?
Fiquem a vontade para não responder essas perguntas, a idéia é só mesmo que a gente pense um pouco sobre esses conceitos e o que eles representam. Coloquei alguns links de referência para começar o nosso estudo... mas fiquem a vontade para compartilhar outras idéias, links e leituras.
Acho bastante válido a gente fazer essa reflexão e - se alguém topar - escrever ou melhorar os verbetes na wiki em português. O jogo é meio bruto com os moderadores, mas pode valer o esforço.
Passando para a parte prática
Gostaria de sugerir um exercicio prático de leitura e remix de dados públicos usando apenas ferramentas web mas que podem gerar resultados interessantes. São 3 passos e a idéia é que façamos isso em duplas.
1) Localizando a informação pública
A idéia dessa primeira etapa é buscar nos diferentes sítios do poder público, sets de dados interessantes para que possamos trabalhar. Quase todos os sitios de governo tem - em maior ou menor grau - informações que podem ser reprocessadas e ressignificadas.
O ideal aqui é a gente buscar informações com a maior granularidade possível, para gerar visualizações interessantes.
Por exemplo, se formos montar uma visualização sobre saúde, é muito melhor ter uma tabela que mostre a quantidade de óbitos por municipio do que por estado; melhor que mostra óbitos por causa do que só o número consolidado e melhor que tenhamos isso separado por mês do que por ano.
O Google por exemplo, montou um sistema que monitora as buscas sobre 'gripe suina' e consegue avisar com uma semana de antecedência os hospitais norte-americanos apenas vendo as tendencias nas buscas em cada região.
2) Preparando os dados abertos
Dependendo de como estão dispostas as informações, esta etapa pode ser ou a mais simples ou a mais complexa! Por isso a idéia dos dados abertos é tão importante. É muito mais fácil trabalhar com dados que já estejam disponiveis em XML, CSV ou através de APIs. Logo em seguida vem tabelas HTML e coisas com arquivos Excel, que não são tão faceis de trabalhar mas que podemos transformar nesses outros formatos. Por último, temos a informação não estruturada - como por exemplo PDFs e Imagens.
Imagine aqui que precisamos que o computador leia e intenda exatamente o que é cada pedacinho de informação, então se tivermos algo estruturado onde a unica dificuldade é dizer: essa coluna é o número de óbitos, esta outra é cidade e esta outra é a data. Do que ter que criar um mecanismo para o computador entender essa mesma informação jogada em texto corrido ou dentro de uma imagem.
Ainda temos poucos sitios no Brasil que disponibilizam dados realmente abertos (e estruturados). Mesmo os CSV e tabelas que temos disponiveis são bastante complexos e falta documentação. Recentemente o governo de São Paulo lançou um projeto chamado Governo Aberto que tenta trabalhar com essa idéia. Minha sugestão é que a gente trabalhe com dados de lá.
3) Plataformas e tipos de visualização
Uma vez que esses dados estejam estruturados, existem varias maneiras e varios softwares que podemos usar para tratar eles. Com meia duzia de linhas de código, usando algumas técnologias livres, conseguimos chegar em resultados bastante interessantes. Mas mesmo para quem (ainda) não domina a arte do código... existem varios experimentos legais para fazer isso.
Vou focar aqui em três sugestões de plataformas para usarmos nesse exercício. Seria muito legal se as duplas pudessem documentar o processo e as dificuldades para que possamos construir pequenos manuais.
Nós já usamos o Many Eyes em alguns experimentos, é relativamente simples de usar e consegue gerar visualizações bastante complexas.
Conheci o DabbleDB faz pouco tempo, mas tem bastante potencial. Ele também é grátis se você deixar os bancos públicos ( o que pra gente não faz tanta diferença, já que estamos trabalhando com dados públicos ). E consegue trabalhar com multiplas tabelas como um banco de dados relacional - o que é uma enorme vantagem mas adiciona alguma complexidade. Também tem uma limitação chata que é importar apenas 15000 registros por vez... pra coisas menores é okey, mas no projeto que estou trabalhando, me vi obrigado a repetir a importação 90 vezes para coletar todos os dados.
Esse é um software apenas para windows, mas resolvi incluir aqui porque pareceu bastante intuitivo e também consegue jogar interfaces interativas na rede. É um software pago, mas acho que para o exercicio talvez o trial de conta =)
Vou colocar no site do curso uma lista de outros links, sites de referência e plataformas de visualização. Na sequencia vou enviar um email com exemplos que nós fizemos de tudo isso que falei aqui, só para não ficar muito abstrato.
Por fim, sei que apareceram aqui varios termos técnicos e coisas complexas que eu passei batido. Não fiquem acanhados em perguntar, essa é a lógica dos pares!
abs,
Pedro Markun