Leendo archivos Parquet en Python

Álvaro Justen [Turicas]

unread,

Mar 14, 2016, 1:26:56 AM3/14/16

to sci...@googlegroups.com

Hola a todos!

No sé si aquí alguien está utilizando el Apache
Spark[http://spark.apache.org/], el tiene un formato llamado parquet,
que es muy eficiente para hacer análisis de
datos tabulares; el problema es que no es tan fácil leer un archivo
parquet en Python (las librerías disponibles son difíciles de usar,
no tienen documentación, etc.).

Después de hablar con un amigo que necesita leer varios archivos
parquet, terminé la implementación de un plug-in para la biblioteca
rows[https://github.com/turicas/rows], para que sea mucho más fácil no sólo
accesar pero también convertir estos datos a otros formatos más
amables (como CSV, HTML, SQLite, y otros).

Más detalles y ejemplos de uso en el artículo que publiqué en mi blog
(en Inglés):
https://twitter.com/turicas/status/709240663322271744

Saludos,
Álvaro Justen "Turicas"
http://turicas.info/ http://twitter.com/turicas
http://CursoDeArduino.com.br/ http://github.com/turicas

Kiko

unread,

Mar 14, 2016, 5:35:50 AM3/14/16

to sci...@googlegroups.com

Hola.

Lo que comentas, ¿no estaría disponible de serie en Spark / PySpark?
http://spark.apache.org/docs/latest/sql-programming-guide.html

Y, ¿en qué se diferencia rows de odo?

Gracias.

Saludos.

--
You received this message because you are subscribed to the Google Groups "SciPy Latin America" group.
To unsubscribe from this group and stop receiving emails from it, send an email to scipyla+u...@googlegroups.com.
To post to this group, send email to sci...@googlegroups.com.
Visit this group at https://groups.google.com/group/scipyla.
For more options, visit https://groups.google.com/d/optout.

Álvaro Justen [Turicas]

unread,

Mar 14, 2016, 7:58:22 AM3/14/16

to sci...@googlegroups.com

La idea principal es utilizar/convertir los datos sin necesitar de spark.

Existen muchas diferencias dentre rows y odo, una es que rows es hecha no solo para convertir pero también para acessar los datos con una buena API y sin muchas dependencias (como numpy y otras).

Saludos,

Kiko

unread,

Mar 14, 2016, 8:06:40 AM3/14/16

to sci...@googlegroups.com

El 14 de marzo de 2016, 12:58, Álvaro Justen [Turicas] <alvaro...@gmail.com> escribió:

La idea principal es utilizar/convertir los datos sin necesitar de spark.

Existen muchas diferencias dentre rows y odo, una es que rows es hecha no solo para convertir pero también para acessar los datos con una buena API y sin muchas dependencias (como numpy y otras).

Saludos,

Genial. Gracias por las aclaraciones.

BTW, interesante proyecto.

Muito Obrigado.

Reply all

Reply to author

Forward