Fala, galera!
Não sei se alguém por aqui está usando o Apache
Spark[
http://spark.apache.org/], mas ele tem um formato chamado
parquet, que é um formato bastante eficiente para fazer análises em
dados tabulares; o problema é que não é (era) tão fácil ler um arquivo
parquet em Python (as bibliotecas disponíveis são difíceis de usar,
não tem documentação etc.).
Depois de conversar com um amigo que precisava ler vários arquivos
parquet usando Python, acabei implementando um plugin pra biblioteca
rows[
https://github.com/turicas/rows], que facilita bastante não só o
acesso mas também a conversão desses dados para outros formatos mais
amigáveis (como CSV, HTML, SQLite, dentre outros).
Mais detalhes e exemplos de uso no artigo que publiquei em meu blog (em Inglês):
https://twitter.com/turicas/status/709240663322271744
Abs,
Álvaro Justen "Turicas"
http://turicas.info/ http://twitter.com/turicas
http://CursoDeArduino.com.br/ http://github.com/turicas
+55 21 9 9898-0141