Dados Vivos no Ckan

3 views
Skip to first unread message

Breno Alencar

unread,
May 10, 2016, 1:59:31 PM5/10/16
to Infraestrutura Nacional de Dados Abertos, Grupo de interesse em conhecimento livre no Brasil, especialmente dados abertos // Open Knowledge discussion list for Brazil
Boa tarde a todos,

Gostaria de compartilhar com vocês nossa experiência sobres publicação de dados em tempo real utilizando o Ckan, e saber como os outros órgãos vem atuando nessa área. 

Faço parte da equipe que mantém o Portal de Dados Abertos do Recife; Há algum tempo estamos publicando algumas bases com as informações atualizadas com atraso máximo de 15 minutos. Colocamos todas essas em um único dataset para facilitar a busca desses dados "Vivos", centralizando em um único local.
As informações desse dataset, contém apenas as informações do dia atual.  
Entre os dados disponibilizados temos:
  • Demandas solicitadas pelos cidadãos à prefeitura relacionados a serviços prestados pela empresas de manutenção e limpeza urbana da cidade
  • Demandas solicitadas pelos cidadãos à prefeitura relacionado a problemas de desabamentos e áreas de riscos
  • Velocidades das Vias
Os arquivos são extraídos através de rotinas das bases de origens, convertidos em csv's e publicados em formato no Portal.
Sentimos receios em diminuir o tempo dessas publicações, e até encontramos alguns problemas no próprio Ckan, que acreditamos que possa em decorrência dessa atualização constante(como é o caso de corromper o arquivo persisted_state.json).

Bom, gostaria de saber como vem sendo a experiência de vocês na publicação de Dados Abertos em tempo real, e se estão utilizando o Ckan ?

Abraços,
Breno Alencar
EMPREL
Prefeitura do Recife


Augusto Herrmann

unread,
May 11, 2016, 9:44:36 AM5/11/16
to Infraestrutura Nacional de Dados Abertos, ind...@googlegroups.com, okf...@lists.okfn.org
Olá, Breno.

Até onde sei, nenhum órgão ou entidade publica dados em tempo real no portal dados.gov.br.

Vocês estão usando o Datastore do CKAN? A princípio, não vejo como poderia dar problema se os dados forem hospedados fora do CKAN (que é a forma de uso mais tradicional), uma vez que não é necessária qualquer alteração no CKAN ao atualizar os dados, já que ele guarda somente os links para os recursos. Se vocês estão usando as extensões Filestore ou Datastore, talvez seja mais prudente usar a forma tradicional, com hospedagem externa dos dados, para os datasets que contêm esses dados com atualizações muito frequentes.

De qualquer forma, parabéns pelo trabalho em publicar dados com atualizações tão frequentes!

Abraços,
Augusto Herrmann
Time de dados abertos - INDA

Júlio Cesar Pacheco Ribeiro

unread,
Oct 6, 2017, 1:57:25 AM10/6/17
to Infraestrutura Nacional de Dados Abertos
Pessoal... Bom dia.

Ao instalarem o CKAN, alguém teve problemas de disponibilidade do serviço? Ocorre que sempre que subimos a aplicação, tudo está funcionando normalmente quando após alguns instantes de iniciado, ocorre um erro interno até então desconhecido, e a aplicação para, sendo normalizada somente após o restart do servidor. Alguem já passou por isso?

Desde já agradeçemos o apoio.

Mutio obrigado.




Em terça-feira, 10 de maio de 2016 14:59:31 UTC-3, brenoag escreveu:

Thiago Avila

unread,
Oct 6, 2017, 5:54:23 AM10/6/17
to Breno Alencar, INDA-br, Grupo de interesse em conhecimento livre no Brasil, especialmente dados abertos // Open Knowledge discussion list for Brazil
Bom dia Breno,

Super legal este relato.

Uma dúvida: onde vocês estão armazenando a série histórica destes dados? Estão disponíveis em algum lugar?

Aqui em Alagoas recebi uma demanda bem similar e gostaria de entender melhor como vocês tratam a questão da série histórica, que avalio ser muito importante para estudos preditivos a partir destes dados.

Parabéns.

Thiago José Tavares Ávila

--
Você recebeu essa mensagem porque está inscrito no grupo "Infraestrutura Nacional de Dados Abertos" dos Grupos do Google.
Para cancelar inscrição nesse grupo e parar de receber e-mails dele, envie um e-mail para INDA-br+unsubscribe@googlegroups.com.
Para postar nesse grupo, envie um e-mail para IND...@googlegroups.com.
Para ver essa discussão na Web, acesse https://groups.google.com/d/msgid/INDA-br/CAOHmmC0K-v1ARiAnL8Kr6X9Me95ufiePSZ-jnQ36-3AxQkWPQA%40mail.gmail.com.
Para mais opções, acesse https://groups.google.com/d/optout.

Carlos Vieira

unread,
Oct 6, 2017, 6:03:43 PM10/6/17
to Thiago Avila, Breno Alencar, Grupo de interesse em conhecimento livre no Brasil, especialmente dados abertos // Open Knowledge discussion list for Brazil, INDA-br
Esses dados históricos são armazenados no banco de dados? Se sim por que não criar APIs que contenham parâmetros de tempo e paginação? E usar o ckan para catalogar essas APIs

Breno Alencar

unread,
Oct 6, 2017, 7:42:34 PM10/6/17
to Thiago Avila, Grupo de interesse em conhecimento livre no Brasil, especialmente dados abertos // Open Knowledge discussion list for Brazil, Infraestrutura Nacional de Dados Abertos
Oi Thiago,
Os dados vivos contém os dados do dia apenas e estão disponibilizados em um dataset específico para dados em tempo real.
Os dados históricos são armazenados e publicados em outro dataset com toda a série histórica. 
Em resumo, disponibilizamos os dois: tempo real e série histórica.

Augusto Herrmann

unread,
Oct 10, 2017, 9:22:41 AM10/10/17
to Infraestrutura Nacional de Dados Abertos
Olá, Breno, bom dia.

Pelo que entendi, vocês estão utilizando o FileStore e o DataStore do CKAN para armazenar o arquivo CSV dentro do próprio CKAN, é isso mesmo?

Vocês chegaram a avaliar a possibilidade de armazenar esses dados fora do CKAN, em um servidor de arquivos, por exemplo, e deixar no CKAN apenas os metadados e a URL do link para o arquivo? Dessa forma, o CKAN só precisaria ser atualizado quando mudassem os metadados, algo que espera-se se bem mais infrequente.

Outra forma seria fazer como o Cadu sugeriu, disponibilizar os dados em uma API em separado do CKAN e catalogar a URL da chamada à API.

Abraço,
Augusto Herrmann


Em sexta-feira, 6 de outubro de 2017 20:42:34 UTC-3, brenoag escreveu:
Oi Thiago,
Os dados vivos contém os dados do dia apenas e estão disponibilizados em um dataset específico para dados em tempo real.
Os dados históricos são armazenados e publicados em outro dataset com toda a série histórica. 
Em resumo, disponibilizamos os dois: tempo real e série histórica.

Em 6 de out de 2017 06:54, "Thiago Avila" <tj...@gmail.com> escreveu:
Bom dia Breno,

Super legal este relato.

Uma dúvida: onde vocês estão armazenando a série histórica destes dados? Estão disponíveis em algum lugar?

Aqui em Alagoas recebi uma demanda bem similar e gostaria de entender melhor como vocês tratam a questão da série histórica, que avalio ser muito importante para estudos preditivos a partir destes dados.

Parabéns.

Thiago José Tavares Ávila

Breno Alencar

unread,
Oct 10, 2017, 9:37:02 AM10/10/17
to Augusto Herrmann, Infraestrutura Nacional de Dados Abertos
Oi Augusto, bom dia!
Pelo que entendi, vocês estão utilizando o FileStore e o DataStore do CKAN para armazenar o arquivo CSV dentro do próprio CKAN, é isso mesmo?Isso.
Outra forma seria fazer como o Cadu sugeriu, disponibilizar os dados em uma API em separado do CKAN e catalogar a URL da chamada à API. É uma boa solução
Não pensamos inicialmente em disponibilizar fora, em razão da pré visualização disponibilizada no CKAN e algumas entidades que usam esse modo de visualização,  mas vamos avaliar essa possibilidade da API, principalmente para bases em tempo real.
Outro fato, é que colocamos uma ferramenta de BI dentro do ckan para permitir a manipulação dessas bases. 

Obrigado!
Atenciosamente,
Breno Alencar

Reply all
Reply to author
Forward
0 new messages