Bonjour,
J'ai quelques questions, je ne sais pas si je vais trouver une réponse, je pose le contexte
Je monte une maquette hadoop 2.4.1, oozie 4.0.1, pig 0.13.0, hive 0.13.1, hbase, 0.98.7 avec un master/nodename sur unbuntu 14.04 (stargate) et 3 datanode raspberry (raspi01,raspi02, raspi03) (raspbian), en cluster
& réseau.
le mécanisme hdfs marche parfaitement, avec mes prog java, après quelques batailles avec la compile d'oozie 4.0.1(compile avec dependence hadoop 2.4.1) pour le work flow
la gestion des taches, ca marche, hbase, pig focntionne, hive pas encore tester, la gui hue voit mes configurations de mon hadoop ecosysteme.
Mais j'ai des problèmes d'exécution des taches dans le scheduler au sein du cluster, notamment avec l'exécution des examples fourni par oozie, qui execute des taches pig et map reduce
au sein d'hadoop, c'est clair c'est un peu plus compliquer qu'un single node.
au début, j'avais eu un problème FIleNotFound execption sur les taches scheduler pig/map-reduce se plantaie dessus, ce qui avait pour conséquence de geler les tâches du workflow
/var/local/hadoop/hdfs/tmp/nm-local-dir/filecache/
le répertoire filecache n'existait et il n'était pas créer, j'ai du le créer manuellement sur tous les serveurs (très bizarre, bug? config?)
j'ai l'impression que c'est mal géré alors que ce sont des temps et que ca devrait être transparent pour les besoins applicatifs.
Quelqu'un a déjà rencontrer ca ?
oozie avait réagi correctement détecte la mort des tâches et met le statut KILLED. je ne pense pas que ca soit un pb du workflow oozie,
Quand hadoop il veut déléguer les tâches à mes raspi datanode, Le resource manager & nodemanager finissent par tomber parce qu'ils n'arrivent pas
se connecter et ils font des retry sur les serveur esclave (raspi01,raspi02,raspi03).
je pense que j'ai un probleme de configuration sur mapred-site.xml et yarn-site.xml
voici ma question que doit on mettre comme nom de serveur sur les datanode eslcave
est ce le nom du master (stargate) ou le localhost de chaque serveur esclave (rapi 01,02,30) ?
je ne trouve pas clairement de réponse dans un cas d'un serveur multinode.pour le mapreduc et yarn.
yarn-site.xml
<?xml version="1.0"?>
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>stargate:8025</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>stargate:8030</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>stargate:8050</value>
</property>
</configuration>
mapred-site.xml
<configuration>
<property>
<value>yarn</value>
</property>
<property>
<name>mapred.job.tracker</name>
<value>stargate:8050</value>
</property>
<property>
<name>jobtracker.thrift.address</name>
</property>
<property>
<name>mapred.jobtracker.plugins</name>
<value>org.apache.hadoop.thriftfs.ThriftJobTrackerPlugin</value>
</property>
<property>
<name>mapreduce.jobtracker.staging.root.dir</name>
<value>/user</value>
</proper
Merci pour vos réponses, ou vos idées
Si je trouve je mettrais mes infos.
cordialement
jipé