新手问题,dpark 计算的集群和moosefs的集群 可以是同一个集群 ?

39 views
Skip to first unread message

jay Young

unread,
Aug 14, 2014, 11:18:00 PM8/14/14
to dpark...@googlegroups.com
如题

不同集群的话,计算时候,数据需要从moosefs集群 传输到 计算集群,这样就是个速度瓶颈?

同一集群的话,数据传输就是可以从本地取数据 计算?

田忠博(Zhongbo Tian)

unread,
Aug 14, 2014, 11:27:58 PM8/14/14
to dpark-users
Hi Jay,


在我们的部署中,计算集群和MooseFS的存储集群是同一个集群,这也是我们推荐的部署方式。

因为在DPark中做了对MooseFS的优化支持,我们会尽量将计算任务调度到包含相应计算数据的节点上,这样当计算任务读取MooseFS上的数据时就可以不通过网络而是直接读取本地磁盘的数据文件,这样就可以避免网络带宽称为计算瓶颈加速计算。

不过,想得到这个好处,在MooseFS部署时也要相应调整配置,设定FILE_UMASK = 022让DPark的任务可以直接读取相应磁盘文件。

当然,分开集群部署也不是问题,只要能保证两个集群之间的网络带宽可以满足需求就可以了。



--
You received this message because you are subscribed to the Google Groups "DPark Users" group.
To unsubscribe from this group and stop receiving emails from it, send an email to dpark-users...@googlegroups.com.
For more options, visit https://groups.google.com/d/optout.

jay Young

unread,
Aug 14, 2014, 11:30:20 PM8/14/14
to dpark...@googlegroups.com
ok, thanks :)

在 2014年8月15日星期五UTC+8上午11时27分58秒,田忠博写道:
Reply all
Reply to author
Forward
0 new messages