Como saber que o processamento map-reduce de carga do HBase realmente está executando de forma distribuída???
É o seguinte:
Estou fazendo um trabalho de especialização em cima do HBase, com o objetivo de medir performance. Para tanto, fiz a instalação e configuração do Hadoop, Zookeeper e HBase em um cluster com 4 máquinas. Quando insiro os arquivos a serem carregados no sistema HDFS do Hadoop consigo confirmar que eles estão sendo distribuídos entre os quatro servidores. Até o momento tudo ok.
Para realizar a carga estou usando a ferramenta importtsv do hbase. Os dados são carregados corretamente para dentro do HBase.
Entretanto, no momento da carga eu abro o monitor de sistema do ubuntu nas quatro máquinas e com ele consigo verificar a transferência de dados através da rede, o uso de memória e do processador. O uso de rede é intenso entre as máquinas, porém o uso do processador é muito intenso somente na máquina em que estou rodando o importtsv, as outras quase não tem processamento. A minha dúvida é a seguinte: o processamento do map-reduce da carga não deveria fazer uso de todos os processadores disponíveis no cluster? Será que eu fiz alguma configuração errada e o processamento está executando somente em uma máquina?
Se alguém já passou por isso e/ou puder me ajudar a entender o que está acontecendo eu agradeço muito.
Valeu,
Alberto Régio