Lendo arquivos Parquet com Python

1,104 views
Skip to first unread message

Álvaro Justen [Turicas]

unread,
Mar 14, 2016, 1:22:04 AM3/14/16
to scipy-...@googlegroups.com
Fala, galera!

Não sei se alguém por aqui está usando o Apache
Spark[http://spark.apache.org/], mas ele tem um formato chamado
parquet, que é um formato bastante eficiente para fazer análises em
dados tabulares; o problema é que não é (era) tão fácil ler um arquivo
parquet em Python (as bibliotecas disponíveis são difíceis de usar,
não tem documentação etc.).

Depois de conversar com um amigo que precisava ler vários arquivos
parquet usando Python, acabei implementando um plugin pra biblioteca
rows[https://github.com/turicas/rows], que facilita bastante não só o
acesso mas também a conversão desses dados para outros formatos mais
amigáveis (como CSV, HTML, SQLite, dentre outros).

Mais detalhes e exemplos de uso no artigo que publiquei em meu blog (em Inglês):
https://twitter.com/turicas/status/709240663322271744

Abs,
Álvaro Justen "Turicas"
http://turicas.info/ http://twitter.com/turicas
http://CursoDeArduino.com.br/ http://github.com/turicas
+55 21 9 9898-0141

Gileno Filho

unread,
Mar 14, 2016, 9:10:44 AM3/14/16
to scipy-...@googlegroups.com
Legal Turicas, eu estava usando apenas para alguns testes na prática não havia necessidade de usar o Spark mas vou testar teu plugin.

Att



--

---
Você está recebendo esta mensagem porque se inscreveu no grupo "Scipy-Brasil" dos Grupos do Google.
Para cancelar inscrição nesse grupo e parar de receber e-mails dele, envie um e-mail para scipy-brasil...@googlegroups.com.
Para obter mais opções, acesse https://groups.google.com/d/optout.

Reply all
Reply to author
Forward
0 new messages