[ATENÇÃO] Instabilidade: Dados Transferência do Governo Federal para estados e municípios

32 views
Skip to first unread message

William

unread,
Apr 5, 2021, 9:09:46 PM4/5/21
to Transparência Hacker
Olá,


Precisaria de uma segunda opinião sobre os dados de transferência do governo federal, há alguém aqui que trabalha com esses dados para trocar mensagens?

O motivo é que nosso projeto Repasse (http://repasse.icmc.usp.br/) está sendo atualizado para analisar todas transferencias dos últimos anos. Ele já não estava sendo atualizado por motivos da troca do formato dos dados, mas em 2021 resolvemos atualizar para acompanhar as ações relacionadas a COVID e outras coisas. (http://www.portaltransparencia.gov.br/comunicados/603503-portal-da-transparencia-divulga-gastos-federais-especificos-para-combate-ao-coronavirus)

O problema é que há 15 dias eu tomei um backup dos dados disponíveis no portal da transparência e atualizei nossa ferramenta para esse formato. No entanto, hoje ao baixar os arquivos novamente eu notei diversas inconsistências:

1) Novas colunas foram adicionadas aos CSVs 
2) O número de linhas de transferências MUDARAM.

A maior preocupação agora é a estabilidade e confiablidade desses arquivos. Olhem abaixa muda o número total de linhas de transferências.

Eu também tenho o backup antigo, ainda na era Temer, de CSVs, naquela época (e antes) os arquivos eram modificados somente quando algum erro de entrada dos valores era encontrado. Ainda não tentei comparar dados daquela época com os atuais e o backup de 15 dias atrás.

Os links dos arquivos que tinha de 15 dias atrás e os atualizados agora estão aqui:


Estou muito preocupado e preciso de qualquer auxílio, minha preocupação é que os dados não são mais confiáveis, mas sozinho não consigo nada, qualquer ajuda ou sugestão nesse sentido é bem vinda.


Obrigado!



--

Quantidade de linhas difere nos arquivos de 15 DIAS ATRAS com os atuais:
```
$ find . -name *csv -print0| wc -l --files0-from=-
106471 ./BACKUP/202008/202008_Transferencias.csv
98876 ./BACKUP/202009/202009_Transferencias.csv
87091 ./BACKUP/202006/202006_Transferencias.csv
57596 ./BACKUP/202002/202002_Transferencias.csv
92648 ./BACKUP/202005/202005_Transferencias.csv
140714 ./BACKUP/202004/202004_Transferencias.csv
125154 ./BACKUP/202012/202012_Transferencias.csv
153450 ./BACKUP/202011/202011_Transferencias.csv
110606 ./BACKUP/202007/202007_Transferencias.csv
128721 ./BACKUP/202010/202010_Transferencias.csv
169903 ./BACKUP/202003/202003_Transferencias.csv
62626 ./BACKUP/202001/202001_Transferencias.csv
153114 ./NOVO/202008/202008_Transferencias.csv
136578 ./NOVO/202009/202009_Transferencias.csv
118058 ./NOVO/202006/202006_Transferencias.csv
87428 ./NOVO/202002/202002_Transferencias.csv
123554 ./NOVO/202005/202005_Transferencias.csv
172673 ./NOVO/202004/202004_Transferencias.csv
225909 ./NOVO/202012/202012_Transferencias.csv
194641 ./NOVO/202011/202011_Transferencias.csv
144679 ./NOVO/202007/202007_Transferencias.csv
163752 ./NOVO/202010/202010_Transferencias.csv
211325 ./NOVO/202003/202003_Transferencias.csv
66377 ./NOVO/202001/202001_Transferencias.csv
76545 ./downloaded_backup/201401_Transferencias.csv
3208489 total
```


Haydee Svab

unread,
Apr 5, 2021, 9:17:55 PM4/5/21
to thackday
Olá William
entendo sua preocupação, mas eles podem apenas ter disponibilizado as mesmas informações de outra forma mesmo.
A qtde de linhas pode ter mudado porque o agrupamento de informações pode estar sendo feito de outra forma.
Acho que vale vc fazer o diff dos datasets para entender exatamente o que está diferente... e aí, a depender do resultado, desconfiar ou não.
Abs,
Haydée

--
Você recebeu essa mensagem porque está inscrito no grupo "Transparência Hacker" dos Grupos do Google.
Para cancelar inscrição nesse grupo e parar de receber e-mails dele, envie um e-mail para thackday+u...@googlegroups.com.
Para ver essa discussão na Web, acesse https://groups.google.com/d/msgid/thackday/686862c2-e240-4818-bad0-924c5bb1bf9bn%40googlegroups.com.


--
MSc. Haydée Svab
Researcher
Urban Mobility & Smart Cities

Bruno Schimitt Morassutti

unread,
Apr 6, 2021, 8:18:23 AM4/6/21
to thac...@googlegroups.com
Olá, WIliam! Tudo bem?


Não conhecia o projeto de vocês! Parabéns!

Só para entender bem a questão: os arquivos de 15 dias atrás são diferentes dos atuais, correto? Quando fez essa extração dos dados do Portal? Recentemente o Portal da Transparência passou por correções pois algumas bases de dados estavam com problema na integração. A CGU publicou uma nota de esclarecimento sobre o assunto.

Chegou a analisar com mais profundidade quais colunas foram adicionadas? Teria como mandar por aqui?

Talvez valesse a pena perguntar para o pessoal do Dados Abertos BR no Telegram

Abraços,



--

Bruno Schimitt Morassutti
Mestre em Direito.
Especialista em Direito Público e Direito Processual Civil.
Advogado, OAB/RS 93.297
55 51 99555-3910

William

unread,
Apr 7, 2021, 9:03:26 PM4/7/21
to Transparência Hacker
Olá Hayde,

Obrigado pela resposta.

Essas mudanças são impactantes para qualquer um que use o sistema, é que nunca vi mudanças tão grandes na época que mexia, por isso me acendeu um alerta aqui. Nesse exato momento não mexerei no Repasse por um tempo, mas temos um plano para quando voltar a trabalhar com esses dados: 

  • Subir um Repasse com os dados antes dessa última mudança (março);
  • Outro repasse com os que adquiri em abril
  • Finalmente mais um com os dados atuais.

Então criaremos algumas queries para comparar os resultados:

  • Soma de todas transferencia por mes e ano
  • Total transferencia por municipio e estado e ano
  • Total transferencia por Função/mês/ano

Vou manter informado aqui na página quando isso acontecer. 

Confesso que tenho receio de aprofundar essa análise! Não está sendo fácil.

Obrigado novamente.

William

unread,
Apr 7, 2021, 11:47:59 PM4/7/21
to Transparência Hacker
Olá Bruno,

Muito obrigado pela resposta. 

Nosso projeto era muito importante para vermos com clareza esses dados do governo federal. Nosso plano era comparar o repasse per-capita, os indicadores da cidade (MIQLT e IDH) juntamente com as métricas de cada função (para educação teríamos IDEB, saúde teríamos, por exemplo, natalidade) e então saber o impacto do repasse e indicar possíveis usos infrutíferos dos repasses. Em 2018 notamos umas mudanças nos CSV (nas colunas), mas não tínhamos pessoas para trabalhar no repasse naquela época. Esse ano, por conta do isolamente social, seria o projeto das minhas férias, mas tive essa barreira.


Muito obrigado por indicar essa nota de esclarecimento, resta saber se ela também impacta os repasses, mas acho que é relacionada sim. O ruim é não saber até quando isso irá continuar e se terá mais mudanças.

Meu medo é carregar os dados, começarmos análises (o acesso popular era muito bacana na época, as pessoas iram ver pra onde ia o recurso em suas respectivas cidades) e gerar mídia com os destaques, para então saber que os dados não refletem a realidade (vide um erro recente que gerou mídia). Outro receio maior é que alguns dados possam gerar perseguição, como foi o caso recente do leite condensado. 


Por isso procuro alguém alguém que trabalha com esses dados ou sabe o que está acontecendo.

>> Chegou a analisar com mais profundidade quais colunas foram adicionadas? Teria como mandar por aqui?

Ainda não, mas pretendo ajustar esse mês e aí colocar no ar com os dados mais recentes. Da "base clássica" para as mudanças de uns anos atrás foram ótimas mudanças, que ajudavam a identificar o orgão que recebeu o repasse (usavamos o favorecido, mas passaram a incluir o orgão e o código SIAFI do mesmo). As novas colunas parecem ser novas dimensões da transferência (modalidade aplicação de despesa, código no plano orçamentário)  , embora não estejam preenchidas, são bem vindas! Meu problema é com as novas linhas somente. Para o Repasse não deve mudar a adição dessas novas colunas, somente o parsing do CSV que deverá ser ajustado.


Muito obrigado pela sua resposta!
Reply all
Reply to author
Forward
Message has been deleted
Message has been deleted
0 new messages