Datamining sur cloudera

Adagio

unread,

Oct 17, 2016, 7:04:37 AM10/17/16

to Hadoop User Group France

Bonjour , j'ai mis en place un cluster hadoop via cloudera , j'aimerai savoir maintenant comment faire du datamining ( appliquer les différents algorithmes de regression , khi carré etc...) via cette plateforme si possible .Si vous avez d'autres possibilités (open source de préférence ) je suis preneur aussi .

Merci d'avance

Fayçal

matt Lieber

unread,

Oct 17, 2016, 4:13:16 PM10/17/16

to hadoop-user-...@googlegroups.com

hello,

Si une version Cloudera recente (5.x) est installé (ou quelque version precédente récente), le mieux est de faire du machine learning via Spark MLLib, probablement deja installé sur la platforme. Sinon, Mahout (en Apache open source) est aussi une possibilité, mais plus tres en vogue actuellement.

Example: https://www.cloudera.com/documentation/enterprise/5-5-x/topics/spark_mllib.html

Matt

--
Hadoop User Group France
http://hugfrance.fr | https://twitter.com/hugfrance
---
Vous recevez ce message, car vous êtes abonné au groupe Google Groupes "Hadoop User Group France".
Pour vous désabonner de ce groupe et ne plus recevoir d'e-mails le concernant, envoyez un e-mail à l'adresse hadoop-user-group-france+unsub...@googlegroups.com.
Pour obtenir davantage d'options, consultez la page https://groups.google.com/d/optout.

Adagio

unread,

Oct 17, 2016, 5:52:43 PM10/17/16

to Hadoop User Group France

Merci Matt pour ta réponse ,

cet apres midi ,jai lance un programme java Mahout pour faire d ela recommandation et ca avait lair plutot simple a utiliser . Mais c'etait hors cloudera (jai lancé dans eclipse sous windows avec un petit csv en entree) .

ceci dit ,je vais tenter dinstaller spark puis Mllib via Cloudera .

Si tu as des tuto dedié je suis preneur .

Peux tu me dire pourquoi Mahout nest plus tendance ? y'a t ilu ne interface dans Hue pour lancer les pgrm Mllib ou Mahout ?

Merci encore

Adagio

unread,

Oct 17, 2016, 6:01:41 PM10/17/16

to Hadoop User Group France

Ma config Cloudera actuelle est sur du Mapreduce , est ce que si je bascule sur spark je devrai tout redevelopper (les requetes Pig ... ) ?

Merci

matt Lieber

unread,

Oct 17, 2016, 9:03:18 PM10/17/16

to hadoop-user-...@googlegroups.com

Mahout a la reputation d'etre compliqué, incomplet en terme d'algo, et assez lent puisque utilisant M/R, et n'est pas vraiment utilisé en Production. Par contraste, Spark MLib est plus complet, et s'appuyant sur la plateforme Spark supporte differents languages, et est plus rapide (notemment pour les iterations type clustering ou il faut raffiner sur le meme type de données, le tout se fait en memoire sur Spark). Je n'ai pas touché CDH depuis quelque temps, mais je croyais que ca venait avec Spark par default ..

Tout basculer sur Spark: les donnees resteraient sur HDFS, mais le code est a redeveloper effectivement. Ceci dit il y a des moyens de migrer le code , par example en utilisant Pig-on-Spark (http://blog.cloudera.com/blog/2014/09/pig-is-flying-apache-pig-on-apache-spark/) .

Matt

Merci

Pour vous désabonner de ce groupe et ne plus recevoir d'e-mails le concernant, envoyez un e-mail à l'adresse hadoop-user-group-france+unsubscr...@googlegroups.com.

Pour obtenir davantage d'options, consultez la page https://groups.google.com/d/optout.

Adagio

unread,

Oct 20, 2016, 5:33:06 AM10/20/16

to Hadoop User Group France

Merci Matt ,

J'ai finalement installé Mahout vu que toute mon architecture est basé déja sur MR .

J'ai essayé un algo de recommandation et un autre de classification (ça marche plutot bien) mais c'est sur que ça serait mieux en spark (memoire vive) .

Jaimerai profiter de ce post pour demander un tuto sur la détection de fraude . Mahout correspond il à ce besoin ?

Merci pour ton retour

Merci

Pour vous désabonner de ce groupe et ne plus recevoir d'e-mails le concernant, envoyez un e-mail à l'adresse hadoop-user-group-france+unsub...@googlegroups.com.
Pour obtenir davantage d'options, consultez la page https://groups.google.com/d/optout.

matt Lieber

unread,

Oct 20, 2016, 2:11:22 PM10/20/16

to hadoop-user-...@googlegroups.com

eh bien il semble que l'algo recommendé pour la detection de fraude est regression logistique, qui a un example la:

https://mahout.apache.org/users/classification/logistic-regression.html

matt

Merci

Pour vous désabonner de ce groupe et ne plus recevoir d'e-mails le concernant, envoyez un e-mail à l'adresse hadoop-user-group-france+unsubscr...@googlegroups.com.

Pour obtenir davantage d'options, consultez la page https://groups.google.com/d/optout.

--
Hadoop User Group France
http://hugfrance.fr | https://twitter.com/hugfrance
---
Vous recevez ce message, car vous êtes abonné au groupe Google Groupes "Hadoop User Group France".

Pour vous désabonner de ce groupe et ne plus recevoir d'e-mails le concernant, envoyez un e-mail à l'adresse hadoop-user-group-france+unsubscr...@googlegroups.com.

Pour obtenir davantage d'options, consultez la page https://groups.google.com/d/optout.

Reply all

Reply to author

Forward