Re: [gur-ugr] Compilación de correos para gur-ugr@googlegroups.com - 2 mensajes en 1 tema

3 views
Skip to first unread message

Odín Morón

unread,
Dec 27, 2013, 12:43:28 PM12/27/13
to gur...@googlegroups.com
Esto ya se escapa de mi ámbito, pero aqui dejo este post de blog que habla en general de este problema
http://www.r-bloggers.com/tips-on-computing-with-big-data-in-r/
y me parece que hay quien ha hecho "versiones" de R que gestionan mejor la memoria y la performance, aunque no se como van o que diferencias hay, y lo que es peor, de sus nombres


El 27 de diciembre de 2013, 13:32, <gur...@googlegroups.com> escribió:

Grupo: http://groups.google.com/group/gur-ugr/topics

    "José Luis López Pino" <jllop...@gmail.com> Dec 26 08:34PM +0100  

    Buenas,
     
    A ver si puedo resucitar este grupo un poco con mi pregunta.
     
    Cuando programamos en R y hacemos uso intensivo de datos nos encontramos
    nos encontramos limitados por la memoria principal. ¿Qué se puede hacer en
    estos casos para superar esta limitación?
     
    He hecho una clasificación de paquetes y alternativas. Me gustaría hacer
    una lista exhaustiva (es para mi tésis de máster), así que agredecería
    mucho vuestras sugerencias.
     
    1 Hay un grupo de paquetes que ofrecen funcionalidades para trabajar con
    datos en memoria secundaria. Aunque esto no funciona a gran escala, puede
    ser suficiente para la mayoría de problemas:
    . biglm (modelos lineales)
    . bigmemory (matrices)
    . ff (estructuras de datos con tipos estándar)
     
    2 Podemos almacenar los datos en un cluster con HDFS y programar usando el
    modelo MapReduce (o similar). La computación se distribuirá en el cluster.
    . RHadoop
    . Rhipe
    . HiVe (Hadoop Interactive, no confundir con HiveQL)
     
    3 También hay en CRAN un paquete llamado foreach que permite distribuir
    computación que no requiere comunicación entre nodos.
     
    4 Por último, podemos utilizar un conector a una base de datos o cluster y
    procesar los datos utilizando un lenguaje de consultas dentro de R. De esta
    forma funciona Ricardo, que integra R y Hadoop.
     
    ¡Gracias!
     
    Regards // Saludos // Mit Freundlichen Grüßen // Bien cordialement,
    Pino

     

    JJ Merelo <jjme...@gmail.com> Dec 27 12:19PM +0100  

    ¡Gracias por la info, José Luis!
     
     
    El 26 de diciembre de 2013, 20:34, José Luis López Pino <
     
    --
    JJ

     

--
Has recibido este mensaje porque estás suscrito al grupo "Grupo de usuarios de R de la UGR" de Grupos de Google.
Para anular la suscripción a este grupo y dejar de recibir sus correos electrónicos, envía un correo electrónico a gur-ugr+u...@googlegroups.com.
Para publicar una entrada en este grupo, envía un correo electrónico a gur...@googlegroups.com.
Visita este grupo en http://groups.google.com/group/gur-ugr.
Para obtener más opciones, visita https://groups.google.com/groups/opt_out.

Reply all
Reply to author
Forward
0 new messages