Dados da execução orçamentária por subprefeitura de São Paulo

15 views
Skip to first unread message

Everton Zanella Alvarenga

unread,
Sep 10, 2014, 1:47:56 PM9/10/14
to Gastos Abertos, Brazil interest group for Open Knowledge and especially Open Data, thackday
Pessoal,

durante a última audiência pública do planejamento do orçamento de São Paulo São Paulo para 2015 (notas <https://pad.okfn.org/p/gastosabertos-ploa2015> do encontro na sub da Sé), comecei a vasculhar os dados da execução orçamentária para cada subprefeitura. Está tudo sem muito padrão nos PDFs de cada mês, quando estão completo.

Vou tentar começar um script que extraia os PDFs das páginas de cada sub e depois começar a tentar transformar esses dados num CSV. Exemplo da sub da Sé

http://www.prefeitura.sp.gov.br/cidade/secretarias/subprefeituras/se/execucao_orcamentaria/index.php?p=27287

Alguém que programa de verdade vê algo melhor que usar Beautiful Soup em Python para extrair os PDFs da página de cada sub? Quando eu começar o script (provavelmente começarei a ver isso sexta pela manhã), compartilho o link quando estiver minimamente funcional. Se alguém já tiver um script nessa linha, por favor, compartilhe o link do repositório. :)

Temos um Tabula rodando em algum servidor? Caso não, acho que vai ser útil para começarmos a abrir esses dados. Podemos ver algum VPS da OKBR para por um, se não tiver nenhum estável rodando.

E podemos pedir para o pessoal da Sempla para publicarem esses dados num formato aberto, eles motraram interesse em colaborar no último encontro de segunda. ;)

Valeu!

Tom

--
Everton Zanella Alvarenga (also Tom)
Open Knowledge Brasil - Rede pelo Conhecimento Livre
http://br.okfn.org

Mario Mol

unread,
Sep 10, 2014, 1:53:28 PM9/10/14
to thackday, Gastos Abertos, Brazil interest group for Open Knowledge and especially Open Data
faz um check no tce .. aqui em mg pelo menos eles estão mapeando estes arquivos para controle.. e tem muita coisa com opendata

abs



--
Você recebeu essa mensagem porque está inscrito no grupo quot;Transparência Hacker" dos Grupos do Google.
Para cancelar inscrição nesse grupo e parar de receber e-mails dele, envie um e-mail para thackday+u...@googlegroups.com.
Para postar nesse grupo, envie um e-mail para thac...@googlegroups.com.
Acesse esse grupo em http://groups.google.com/group/thackday.
Para ver essa discussão na Web, acesse https://groups.google.com/d/msgid/thackday/CAOUmeJBgAOZtzwhtXmZ_muQLZGcmnDGps6SAvAUeghuPFujSJw%40mail.gmail.com.
Para mais opções, acesse https://groups.google.com/d/optout.

Andres MRM

unread,
Sep 10, 2014, 2:06:41 PM9/10/14
to Grupo de interesse em conhecimento livre no Brasil, especialmente dados abertos, Gastos Abertos, thackday
Acho que eu usaria algumas expressões regulares (RE).

O script primeiro baixaria esse HTML (com a lista de todas as Subs):
http://www.prefeitura.sp.gov.br/cidade/secretarias/subprefeituras/subprefeituras/index.php
Aplicaria então uma RE para extrair os nomes delas. Algo assim:
"http://www.prefeitura.sp.gov.br/cidade/secretarias/subprefeituras/(NOME)/historico/*"

Tendo a lista de subdomínios de cada Subprefeitura, baixaria a página de
execução de cada uma:
http://www.prefeitura.sp.gov.br/cidade/secretarias/subprefeituras/(NOME)/execucao_orcamentaria/index.php

Dai é só vasculhar cada página baixada por um link que contenha "PDF" ou "pdf"
e baixar. Algo assim:
"http://www.prefeitura.sp.gov.br/cidade/secretarias/subprefeituras/upload/(NOME)/arquivos/execucao_orcamentaria/*.(pdf|PDF)"

Alguém vê um caminho mais fácil?

Existem uns copiadores de sites. Há muito tempo que não uso um. Não sei se
seria uma boa opção, mas talvez algum deles tenha uma opção de baixar todos os
PDFs de um site.
>_______________________________________________
>okfn-br mailing list
>okf...@lists.okfn.org
>https://lists.okfn.org/mailman/listinfo/okfn-br
>Unsubscribe: https://lists.okfn.org/mailman/options/okfn-br

Edgar Zanella Alvarenga

unread,
Sep 10, 2014, 2:06:52 PM9/10/14
to Grupo de interesse em conhecimento livre no Brasil, especialmente dados abertos, Gastos Abertos, thackday
Tabula é pra OCR, estes PDFs não são digitalizados. Usando o pdftotext com parâmetro -layout você possui um arquivo txt que pode ser trivialmente convertido para csv. Não precisa do Tabula e mesmo que precisasse, melhor usá-lo localmente.

2014-09-10 14:47 GMT-03:00 Everton Zanella Alvarenga <t...@okfn.org.br>:

Ana Waksberg Guerrini

unread,
Sep 15, 2014, 2:42:41 PM9/15/14
to thac...@googlegroups.com, Grupo de interesse em conhecimento livre no Brasil, especialmente dados abertos, Gastos Abertos
reencaminhando o email que o Pedro Marin, Coordenador de Planejamento da Secr. de Planejamento, enviou a mim e ao Tom:

"Oi Tom, tudo bom?

A Ana me falou q vcs estão tentando obter os dados da execução orçamentária por sub prefeitura.

Vc já viu o arquivo de base de dados da execução orçamentária no site da sempla? Lá esses dados aparecem em formato aberto (OK, tecnicamente não é aberto pq estão em um xls, mas é melhor que os pdfs). http://sempla.prefeitura.sp.gov.br/orc_homenew.php

Filtrando esses dados por "órgão" vcs conseguem ver a execução de cada sub.

Se puder te ajudar em alguma coisa, avise.

Abs,

Pedro"


--
Você recebeu essa mensagem porque está inscrito no grupo quot;Transparência Hacker" dos Grupos do Google.
Para cancelar inscrição nesse grupo e parar de receber e-mails dele, envie um e-mail para thackday+u...@googlegroups.com.
Para postar nesse grupo, envie um e-mail para thac...@googlegroups.com.
Acesse esse grupo em http://groups.google.com/group/thackday.

Para mais opções, acesse https://groups.google.com/d/optout.



--
--
"There is a theory which states that if ever anybody discovers exactly what the Universe is for and why it is here, it will instantly disappear and be replaced by something even more bizarre and inexplicable. There is another theory which states that this has already happened."

Douglas Adams
Reply all
Reply to author
Forward
0 new messages