--
Você recebeu essa mensagem porque está inscrito no grupo "Infraestrutura Nacional de Dados Abertos" dos Grupos do Google.
Para cancelar inscrição nesse grupo e parar de receber e-mails dele, envie um e-mail para INDA-br+u...@googlegroups.com.
Para postar nesse grupo, envie um e-mail para IND...@googlegroups.com.
Para ver essa discussão na Web, acesse https://groups.google.com/d/msgid/INDA-br/dda759d7-f52b-4c41-b699-1c02cad13f96%40googlegroups.com.
Para mais opções, acesse https://groups.google.com/d/optout.
--
Você recebeu essa mensagem porque está inscrito no grupo "Infraestrutura Nacional de Dados Abertos" dos Grupos do Google.
Para cancelar inscrição nesse grupo e parar de receber e-mails dele, envie um e-mail para INDA-br+unsubscribe@googlegroups.com.
Interessante, Marcelo. Então quer dizer que a base da Receita Federal tem 10 milhões de registros A MENOS? Você chegou a especular qual seria o gap? Talvez alguma UF ou alguma atividade empresarial (CNAE) específica que a Receita não capturou/publicou?Importante dar esse feedback pra Receita...
Fabiano AngélicoSkype: fabiano.angelicoTelegram: +55 11 98270.3020
Researcher/Consultant/Lecturer/TrainerPesquisador/Consultor/Palestrante/InstrutorOpen Government, Freedom of Information, Transparency, Open Data, Anti-Corruption, Accountability Journalism, Social Accountability, Civic ParticipationGoverno Aberto, Acesso a Informação, Transparência, Dados Abertos, Combate à Corrupção, Jornalismo Investigativo, Controle Social, Participação Social
Em 8 de junho de 2018 09:30, Marcelo R Berwanger <marcelo....@gmail.com> escreveu:
Bom dia!Estou iniciando um projeto de machine learning e data science em dados empresariais. No entanto estou com dificuldade em construir o meu banco de dados base, que seria a lista de empresas do Brasil e seus respectivos dados do Cartão CNPJ em lote. Até onde sei é possível consultar esta informação no site da Receita mas de forma manual. Não não encontro nenhuma forma de automatizar esta busca para que possa popular esta base.Até o momento, consegui a lista de CNPJs disponíveis nos dados abertos da Receita Federal, mas é só o CNPJ e o QSA, mais nenhum dado. E encontrei uma grande diferença pelo que é apresentado, uma diferença de quase 10 milhoes de registros a menos, segundo o que apresentam algumas empresas como Serasa, Econodada, Empresometro, entre outras.Caso alguém possa me ajudar a trilhar este caminho, agradeço desde já pois isto seria de grande valia para o nosso projeto.AttMarcelo Berwanger
--
Você recebeu essa mensagem porque está inscrito no grupo "Infraestrutura Nacional de Dados Abertos" dos Grupos do Google.
Para cancelar inscrição nesse grupo e parar de receber e-mails dele, envie um e-mail para INDA-br+u...@googlegroups.com.
Base incompleta
Alguns CNPJs não constam nos arquivos (como EI, MEI e de candidatos e empresas inativas), tornando a base incompleta e de difícil cruzamento com outras bases, principalmente quanto a dados históricos. Não foi possível verificar detalhadamente, mas suspeita-se que CNPJs de filiais nem sempre aparecem
Para ver essa discussão na Web, acesse https://groups.google.com/d/msgid/INDA-br/da9971ee-446c-4994-95bb-48472185cd4e%40googlegroups.com.
Para cancelar inscrição nesse grupo e parar de receber e-mails dele, envie um e-mail para INDA-br+unsubscribe@googlegroups.com.
Para postar nesse grupo, envie um e-mail para IND...@googlegroups.com.
Para ver essa discussão na Web, acesse https://groups.google.com/d/msgid/INDA-br/3193101b-01c7-4e8d-8cb6-fea63797c37b%40googlegroups.com.
Marcelo, veja no README do projeto, pois já verifiquei algumas informações com a assessoria da Receita (nessa base não constam EI e MEI, nem CNPJs de empresas públicas), inclusive listei lá em uma seção "Erros" os pontos possíveis a melhorar - o problema é que eles não respondem sobre os erros (https://twitter.com/turicas/status/1003674197288194060?s=19). Por falar em erros, o dataset da RFB está com todos os nomes de sócias PJ *errados* - no meu script eu corrijo o que dá pra corrigir, então use os dados resultantes do meu script que você estará com dados mais consistentes e em um formato melhor.No Brasil.IO estou coletando CNPJs de outros datasets (como gastos diretos do governo federal, disponível no portal da transparência) e reunindo tudo em um novo dataset com CNPJ e razão social, para ficar mais fácil encontrar as empresas.Abs,
Para cancelar inscrição nesse grupo e parar de receber e-mails dele, envie um e-mail para INDA-br+unsubscribe@googlegroups.com.