Lendo arquivos Parquet com Python

1,104 views

Skip to first unread message

Álvaro Justen [Turicas]

unread,

Mar 14, 2016, 1:22:04 AM3/14/16

to scipy-...@googlegroups.com

Fala, galera!

Não sei se alguém por aqui está usando o Apache
Spark[http://spark.apache.org/], mas ele tem um formato chamado
parquet, que é um formato bastante eficiente para fazer análises em
dados tabulares; o problema é que não é (era) tão fácil ler um arquivo
parquet em Python (as bibliotecas disponíveis são difíceis de usar,
não tem documentação etc.).

Depois de conversar com um amigo que precisava ler vários arquivos
parquet usando Python, acabei implementando um plugin pra biblioteca
rows[https://github.com/turicas/rows], que facilita bastante não só o
acesso mas também a conversão desses dados para outros formatos mais
amigáveis (como CSV, HTML, SQLite, dentre outros).

Mais detalhes e exemplos de uso no artigo que publiquei em meu blog (em Inglês):
https://twitter.com/turicas/status/709240663322271744

Abs,
Álvaro Justen "Turicas"
http://turicas.info/ http://twitter.com/turicas
http://CursoDeArduino.com.br/ http://github.com/turicas
+55 21 9 9898-0141

Gileno Filho

unread,

Mar 14, 2016, 9:10:44 AM3/14/16

to scipy-...@googlegroups.com

Legal Turicas, eu estava usando apenas para alguns testes na prática não havia necessidade de usar o Spark mas vou testar teu plugin.

Att

Gileno Alves Santa Cruz Filho

http://www.gilenofilho.com.br | http://www.pycursos.com

--

---
Você está recebendo esta mensagem porque se inscreveu no grupo "Scipy-Brasil" dos Grupos do Google.
Para cancelar inscrição nesse grupo e parar de receber e-mails dele, envie um e-mail para scipy-brasil...@googlegroups.com.
Para obter mais opções, acesse https://groups.google.com/d/optout.

Reply all

Reply to author

Forward

0 new messages