datanode 利用 cpu 多核问题

33 views
Skip to first unread message

周元元

unread,
Jul 21, 2014, 6:05:23 AM7/21/14
to hado...@googlegroups.com
datanode 想要利用 cpu 多核,是不是只能调整 map 的数量?谢谢 

panfei

unread,
Jul 21, 2014, 7:34:40 AM7/21/14
to Hadoop中文用户组
1. 多核的利用涉及到多进程或多线程,Java中的多进程和多线程都能够利用多核
2. MAP或Reduce数量关系到启动的JVM进程的数量

所以想要利用多核,调整map的数量只是一个选择,一般情况下这也是方便的选择


在 2014年7月21日 下午6:05,周元元 <cumt...@gmail.com>写道:
datanode 想要利用 cpu 多核,是不是只能调整 map 的数量?谢谢 

--
您收到此邮件是因为您订阅了Google网上论坛中的“Hadoop中国用户组(CHUG)”论坛。
要退订此论坛并停止接收此论坛的电子邮件,请发送电子邮件到hadoopors+...@googlegroups.com
要查看更多选项,请访问https://groups.google.com/d/optout



--
不学习,不知道

周元元

unread,
Jul 21, 2014, 10:06:51 PM7/21/14
to hado...@googlegroups.com
好的,谢谢,那除了调整 map 的数量还有其他什么方法吗?map 利用上了多核也不能绝对提高速度是吗?我执行一个select count(column) from table by column 感觉很慢啊,现在测试有 5 台机器,测试用了2-3G 的 acceess.log, 用的 hive

在 2014年7月21日星期一UTC+8下午7时34分40秒,felix写道:
1. 多核的利用涉及到多进程或多线程,Java中的多进程和多线程都能够利用多核
2. MAP或Reduce数量关系到启动的JVM进程的数量

所以想要利用多核,调整map的数量只是一个选择,一般情况下这也是方便的选择
在 2014年7月21日 下午6:05,周元元 <cumt...@gmail.com>写道:
datanode 想要利用 cpu 多核,是不是只能调整 map 的数量?谢谢 

--
您收到此邮件是因为您订阅了Google网上论坛中的“Hadoop中国用户组(CHUG)”论坛。
要退订此论坛并停止接收此论坛的电子邮件,请发送电子邮件到hadoopors+unsubscribe@googlegroups.com
要查看更多选项,请访问https://groups.google.com/d/optout



--
不学习,不知道

panfei

unread,
Jul 21, 2014, 10:42:57 PM7/21/14
to Hadoop中文用户组
1. MapReduce是一个批处理模型,提交执行过程并不是实时的,所以你所谓的“很慢”不知道有多慢,但即使是在正常情况下也不是实时出结果的
2. 提高速度与否要看作业的性质,作业的瓶颈在IO上的话,那再多的核也没用;如果瓶颈是在计算上的话,在内存够用的前提下,尽可能将算法并行化肯定是有帮助的
3. 如果想要接近实时的计算性能,还是要考虑Spark或者Impala之类的内存计算架构;或者使用ES、Solr之类的搜索架构

以上



--
您收到此邮件是因为您订阅了Google网上论坛中的“Hadoop中国用户组(CHUG)”论坛。
要退订此论坛并停止接收此论坛的电子邮件,请发送电子邮件到hadoopors+...@googlegroups.com
要查看更多选项,请访问https://groups.google.com/d/optout



--
不学习,不知道

周元元

unread,
Jul 22, 2014, 3:53:28 AM7/22/14
to hado...@googlegroups.com
真心非常感谢你的回答

在 2014年7月22日星期二UTC+8上午10时42分57秒,felix写道:
Reply all
Reply to author
Forward
0 new messages