Aplicaciones de uso intensivo de datos en R

José Luis López Pino

unread,

Dec 26, 2013, 2:34:51 PM12/26/13

to gur...@googlegroups.com

Buenas,

A ver si puedo resucitar este grupo un poco con mi pregunta.

Cuando programamos en R y hacemos uso intensivo de datos nos encontramos nos encontramos limitados por la memoria principal. ¿Qué se puede hacer en estos casos para superar esta limitación?

He hecho una clasificación de paquetes y alternativas. Me gustaría hacer una lista exhaustiva (es para mi tésis de máster), así que agredecería mucho vuestras sugerencias.

1 Hay un grupo de paquetes que ofrecen funcionalidades para trabajar con datos en memoria secundaria. Aunque esto no funciona a gran escala, puede ser suficiente para la mayoría de problemas:

. biglm (modelos lineales)

. bigmemory (matrices)

. ff (estructuras de datos con tipos estándar)

2 Podemos almacenar los datos en un cluster con HDFS y programar usando el modelo MapReduce (o similar). La computación se distribuirá en el cluster.

. RHadoop

. Rhipe

. HiVe (Hadoop Interactive, no confundir con HiveQL)

3 También hay en CRAN un paquete llamado foreach que permite distribuir computación que no requiere comunicación entre nodos.

4 Por último, podemos utilizar un conector a una base de datos o cluster y procesar los datos utilizando un lenguaje de consultas dentro de R. De esta forma funciona Ricardo, que integra R y Hadoop.

¡Gracias!

Regards // Saludos // Mit Freundlichen Grüßen // Bien cordialement,

Pino

JJ Merelo

unread,

Dec 27, 2013, 6:19:59 AM12/27/13

to gur...@googlegroups.com

¡Gracias por la info, José Luis!

--
Has recibido este mensaje porque estás suscrito al grupo "Grupo de usuarios de R de la UGR" de Grupos de Google.
Para anular la suscripción a este grupo y dejar de recibir sus correos electrónicos, envía un correo electrónico a gur-ugr+u...@googlegroups.com.
Para publicar una entrada en este grupo, envía un correo electrónico a gur...@googlegroups.com.
Visita este grupo en http://groups.google.com/group/gur-ugr.
Para obtener más opciones, visita https://groups.google.com/groups/opt_out.

--
JJ

José Luis López Pino

unread,

Dec 27, 2013, 12:23:35 PM12/27/13

to gur...@googlegroups.com

¡De nada! Pero lo que necesito es vuestro feedback para agregar más paquetes o opciones a la clasificación :)

Regards // Saludos // Mit Freundlichen Grüßen // Bien cordialement,

Pino

2013/12/27 JJ Merelo <jjme...@gmail.com>

Anna Sáez de Tejada Cuenca

unread,

Jul 31, 2015, 1:49:38 AM7/31/15

to Grupo de usuarios de R de la UGR, jllop...@gmail.com

Sé que voy dos años tarde y que ya habrás acabado el máster, pero para quien le interese aquí queda.

Si estamos trabajando con matrices que son demasiado grandes para la memoria pero que sabemos que tendrán muchos ceros, el paquete Matrix tiene la función sparseMatrix para almacenarlas. Luego se puede operar con ellas y va más o menos rápido.

Reply all

Reply to author

Forward