datanode 利用 cpu 多核问题

周元元

unread,

Jul 21, 2014, 6:05:23 AM7/21/14

to hado...@googlegroups.com

datanode 想要利用 cpu 多核，是不是只能调整 map 的数量？谢谢

panfei

unread,

Jul 21, 2014, 7:34:40 AM7/21/14

to Hadoop中文用户组

1. 多核的利用涉及到多进程或多线程，Java中的多进程和多线程都能够利用多核
2. MAP或Reduce数量关系到启动的JVM进程的数量

所以想要利用多核，调整map的数量只是一个选择，一般情况下这也是方便的选择

在 2014年7月21日下午6:05，周元元 <cumt...@gmail.com>写道：

datanode 想要利用 cpu 多核，是不是只能调整 map 的数量？谢谢

--
您收到此邮件是因为您订阅了Google网上论坛中的“Hadoop中国用户组(CHUG)”论坛。
要退订此论坛并停止接收此论坛的电子邮件，请发送电子邮件到hadoopors+...@googlegroups.com。
要查看更多选项，请访问https://groups.google.com/d/optout。

--
不学习，不知道

周元元

unread,

Jul 21, 2014, 10:06:51 PM7/21/14

to hado...@googlegroups.com

好的，谢谢，那除了调整 map 的数量还有其他什么方法吗？map 利用上了多核也不能绝对提高速度是吗？我执行一个select count(column) from table by column 感觉很慢啊，现在测试有 5 台机器，测试用了2-3G 的 acceess.log, 用的 hive

在 2014年7月21日星期一UTC+8下午7时34分40秒，felix写道：

1. 多核的利用涉及到多进程或多线程，Java中的多进程和多线程都能够利用多核
2. MAP或Reduce数量关系到启动的JVM进程的数量

所以想要利用多核，调整map的数量只是一个选择，一般情况下这也是方便的选择

在 2014年7月21日下午6:05，周元元 <cumt...@gmail.com>写道：

datanode 想要利用 cpu 多核，是不是只能调整 map 的数量？谢谢

--
您收到此邮件是因为您订阅了Google网上论坛中的“Hadoop中国用户组(CHUG)”论坛。
要退订此论坛并停止接收此论坛的电子邮件，请发送电子邮件到hadoopors+unsubscribe@googlegroups.com。
要查看更多选项，请访问https://groups.google.com/d/optout。

--
不学习，不知道

panfei

unread,

Jul 21, 2014, 10:42:57 PM7/21/14

to Hadoop中文用户组

1. MapReduce是一个批处理模型，提交执行过程并不是实时的，所以你所谓的“很慢”不知道有多慢，但即使是在正常情况下也不是实时出结果的
2. 提高速度与否要看作业的性质，作业的瓶颈在IO上的话，那再多的核也没用；如果瓶颈是在计算上的话，在内存够用的前提下，尽可能将算法并行化肯定是有帮助的
3. 如果想要接近实时的计算性能，还是要考虑Spark或者Impala之类的内存计算架构；或者使用ES、Solr之类的搜索架构

以上

--
您收到此邮件是因为您订阅了Google网上论坛中的“Hadoop中国用户组(CHUG)”论坛。
要退订此论坛并停止接收此论坛的电子邮件，请发送电子邮件到hadoopors+...@googlegroups.com。
要查看更多选项，请访问https://groups.google.com/d/optout。

--
不学习，不知道

周元元

unread,

Jul 22, 2014, 3:53:28 AM7/22/14

to hado...@googlegroups.com

真心非常感谢你的回答

在 2014年7月22日星期二UTC+8上午10时42分57秒，felix写道：

Reply all

Reply to author

Forward