[OT]Dpark的群集模式必须使用meos吗?

97 views
Skip to first unread message

timger™

unread,
Mar 5, 2014, 5:07:24 AM3/5/14
to dpark...@googlegroups.com
这个问题比较入门级别,所以OT了
主要想做一下调研
我们公司的日志我先有做过一步数据清洗
清洗完之后的数据是csv格式了
分布在一组机器上,
由于数据量太大,没有历史分析的必要, 所以没有上hadoop
但是有时候需要跑一些map/reduce 的计算Job
本身是个python党, 所以想考虑使用Dpark
想问下组里用过dpark的兄弟
在不引入hadoop的情况下 通过mesos 是否可以访问分布在各个机器上的文件
然后在利用Dpark 跑map reduce Job

田忠博

unread,
Mar 5, 2014, 5:24:36 AM3/5/14
to dpark-users
mesos 本身并不能替代分布式存储,只是计算资源管理平台

dpark对moosefs有原生的支持
当然也可以使用其他支持fuse的网络文件系统


--
You received this message because you are subscribed to the Google Groups "DPark Users" group.
To unsubscribe from this group and stop receiving emails from it, send an email to dpark-users...@googlegroups.com.
For more options, visit https://groups.google.com/groups/opt_out.

timger™

unread,
Mar 5, 2014, 5:48:47 AM3/5/14
to dpark-users

2014-03-05 18:24 GMT+08:00 田忠博 <windr...@gmail.com>:
mesos 本身并不能替代分布式存储,只是计算资源管理平台

dpark对moosefs有原生的支持
当然也可以使用其他支持fuse的网络文件系统

多谢回答
​也就说必须有一个统一的文件系统接口访问这组机器的本地文件才行
看来NFS 或许可以一试
比如我布个NGINX 让程序通过URL访问文件是否可行
NFS 最终还是的通过一台机器 担心压力有点大





>>> blog  
Regards,
timger  

Windreamer

unread,
Mar 5, 2014, 5:51:53 AM3/5/14
to dpark...@googlegroups.com
可以试试webdav+fuse 不过不清楚效果如何

---
Windreamer
--

timger™

unread,
Mar 5, 2014, 5:55:24 AM3/5/14
to dpark...@googlegroups.com

2014-03-05 18:51 GMT+08:00 Windreamer <windr...@gmail.com>:
可以试试webdav+fuse 不过不清楚效果如何

​多谢提供方案..





>>> blog  
Regards,
timger  

Windreamer

unread,
Mar 5, 2014, 5:57:21 AM3/5/14
to dpark...@googlegroups.com
或者更简单的用sshfs也许也可以成立,部署会更简单些

---
Windreamer
--

timger™

unread,
Mar 5, 2014, 6:02:24 AM3/5/14
to dpark-users

On Wed, Mar 5, 2014 at 6:57 PM, Windreamer <windr...@gmail.com> wrote:
或者更简单的用sshfs也许也可以成立,部署会更简单

​不是很了解sshfs
sshfs 也是mount 某一台机器吧

​sshfs 和 NFS,webdav+fuse  那种你比较推荐







>>> blog  
Regards,
timger  

Windreamer

unread,
Mar 5, 2014, 6:04:21 AM3/5/14
to dpark...@googlegroups.com
并没有详细测试过,nfs性能应该高于其他,另外两个性能应该都比较一般

---
Windreamer
--

timger™

unread,
Mar 5, 2014, 6:13:38 AM3/5/14
to dpark-users

On Wed, Mar 5, 2014 at 7:04 PM, Windreamer <windr...@gmail.com> wrote:
并没有详细测试过,nfs性能应该高于其他,另外两个性能应该都比较一般

​有没有不mount的方案​





>>> blog  
Regards,
timger  

Windreamer

unread,
Mar 5, 2014, 10:44:04 AM3/5/14
to dpark...@googlegroups.com
目前不行,dpark要分发大数据还是需要分布式文件系统的支持

---
Windreamer
--

Davies Liu

unread,
Mar 5, 2014, 2:17:25 PM3/5/14
to dpark...@googlegroups.com
timger, 你好!

如果数据不是太大,单机可以搞定存储和计算的话,只需要 DPark 就可以了,用它的多进程模式,几十G的数据量应该没啥问题吧。

如果觉得单机并行的速度还不够快,需要多机并行计算的话,就需要分布式文件系统(比如Moose FS)和分布式计算资源管理框架(比如Mesos)了。

MooseFS 还是一个非常好的分布式文件系统,如果有超过3台以上的机器就应该使用。用它统一管理所有机器的磁盘空间,非常方便。

如果实在偏好NFS,也是可以的。每个有数据的节点都作为 NFS server,
并把它们挂载到其它所有机器(需要统一配置好挂载点),这样在任何一台节点都可以访问任何数据,就满足了DPark 对数据访问的要求。

目前DPark的多机模式只能依赖Mesos,如果还有其它更轻量易用的计算资源管理框架,也可以增加支持。

Davies
> --
> You received this message because you are subscribed to the Google Groups
> "DPark Users" group.
> To unsubscribe from this group and stop receiving emails from it, send an
> email to dpark-users...@googlegroups.com.
> For more options, visit https://groups.google.com/groups/opt_out.



--
- Davies

timger™

unread,
Mar 6, 2014, 10:47:52 PM3/6/14
to dpark-users
多谢 Davies Liu
我看了下mesosfs  案例不多
感觉还是直接引入hdfs吧
数据大了统一的文件系统还是很有必要







>>> blog  
Regards,
timger  

Davies Liu

unread,
Mar 6, 2014, 10:54:34 PM3/6/14
to dpark...@googlegroups.com
hdfs 只适合存储用于计算的数据,而 MooseFS
更通用,而且使用曲线也更平滑更容易维护,我倾向于推荐MooseFS而不是HDFS,除非你偏好Java并且有足够的人力来投入维护。

MooseFS的用户应该不止地图上标注的那些,因为它出自欧洲,没有特别的商业公司来推动,所以目前用户不是很多,但不代表它不优秀。相反的例子是MongoDB之流,坑多,因为有公司持续推动反而流行。

DPark 目前还不支持HDFS,因为HDFS 没有好的c和Python客户端,也没有好的NFS/FUSE客户端。
> For more options, visit https://groups.google.com/d/optout.



--
- Davies

timger™

unread,
Mar 6, 2014, 11:01:04 PM3/6/14
to dpark-users

2014-03-07 11:54 GMT+08:00 Davies Liu <davie...@gmail.com>:
hdfs 只适合存储用于计算的数据,而 MooseFS
​这点我很认同 HDFS的API都变了 一直没引入HDFS的原因是我实时计算完的数据已经写入各个机器啦
​我要用hdfs 还得copy 一次上hdfs
我计算的时候需要一个统一访问各个机器文件的系统 现在是挂了一个NFS单机操作
现在考虑把计算分散到各个机器上, 如果使用MooseFS的话 我是否也得先copy一次
其实我希望的是 直接有一个统一读的服务就可以了

 
更通用,而且使用曲线也更平滑更容易维护,我倾向于推荐MooseFS而不是HDFS,除非你偏好Java并且有足够的人力来投入维护。

MooseFS的用户应该不止地图上标注的那些,因为它出自欧洲,没有特别的商业公司来推动,所以目前用户不是很多,但不代表它不优秀。相反的例子是MongoDB之流,坑多,因为有公司持续推动反而流行。

DPark 目前还不支持HDFS,因为HDFS 没有好的c和Python客户端,也没有好的NFS/FUSE客户端。






>>> blog  
Regards,
timger  

Davies Liu

unread,
Mar 7, 2014, 12:26:52 AM3/7/14
to dpark...@googlegroups.com
2014-03-06 20:01 GMT-08:00 timger(tm) <yishen...@gmail.com>:
>
> 2014-03-07 11:54 GMT+08:00 Davies Liu <davie...@gmail.com>:
>>
>> hdfs 只适合存储用于计算的数据,而 MooseFS
>
> 这点我很认同 HDFS的API都变了 一直没引入HDFS的原因是我实时计算完的数据已经写入各个机器啦
> 我要用hdfs 还得copy 一次上hdfs
> 我计算的时候需要一个统一访问各个机器文件的系统 现在是挂了一个NFS单机操作
> 现在考虑把计算分散到各个机器上, 如果使用MooseFS的话 我是否也得先copy一次
> 其实我希望的是 直接有一个统一读的服务就可以了

MooseFS 有一个很成熟的FUSE客户端,可以像NFS一样直接mount
到各个机器,应用可以像读写本地文件系统一样直接读写。这样不仅仅可以用来存储计算用的数据,其它的各种备份数据还有程序代码等都可以放里面。

>
>>
>> 更通用,而且使用曲线也更平滑更容易维护,我倾向于推荐MooseFS而不是HDFS,除非你偏好Java并且有足够的人力来投入维护。
>>
>>
>> MooseFS的用户应该不止地图上标注的那些,因为它出自欧洲,没有特别的商业公司来推动,所以目前用户不是很多,但不代表它不优秀。相反的例子是MongoDB之流,坑多,因为有公司持续推动反而流行。
>>
>> DPark 目前还不支持HDFS,因为HDFS 没有好的c和Python客户端,也没有好的NFS/FUSE客户端。
>
>
>
>
>
>
>
>>>> blog
> Regards,
> timger
>

muxueqz(张明源)

unread,
Mar 7, 2014, 1:44:15 AM3/7/14
to dpark...@googlegroups.com
其实你收集数据就可以汇总在MooseFS中呀,然后你就可以把MooseFS当NFS用了……


--
You received this message because you are subscribed to the Google Groups "DPark Users" group.
To unsubscribe from this group and stop receiving emails from it, send an email to dpark-users...@googlegroups.com.
For more options, visit https://groups.google.com/d/optout.

timger™

unread,
Mar 7, 2014, 2:04:49 AM3/7/14
to dpark-users

2014-03-07 13:26 GMT+08:00 Davies Liu <davie...@gmail.com>:
MooseFS 有一个很成熟的FUSE客户端,可以像NFS一样直接mount
到各个机器,应用可以像读写本地文件系统一样直接读写。这样不仅仅可以用来存储计算用的数据,其它的各种备份数据还有程序代码等都可以放里面。

​不错 我准备再调研下





>>> blog  
Regards,
timger  

timger™

unread,
Mar 7, 2014, 2:05:40 AM3/7/14
to dpark-users

2014-03-07 14:44 GMT+08:00 muxueqz(张明源) <zhangmin...@gmail.com>:
其实你收集数据就可以汇总在MooseFS中呀,然后你就可以把MooseFS当NFS用了…

​如果写入量很大 稳定性如何
比如小时TB的写入量​,大量小文件





>>> blog  
Regards,
timger  

muxueqz(张明源)

unread,
Mar 7, 2014, 4:28:01 AM3/7/14
to dpark...@googlegroups.com
大量小文件的话,HDFS也不适合。
建议每小时合并出几个文件再写入


--
You received this message because you are subscribed to the Google Groups "DPark Users" group.
To unsubscribe from this group and stop receiving emails from it, send an email to dpark-users...@googlegroups.com.
For more options, visit https://groups.google.com/d/optout.

timger™

unread,
Mar 8, 2014, 12:05:32 AM3/8/14
to dpark-users

On Fri, Mar 7, 2014 at 5:28 PM, muxueqz(张明源) <zhangmin...@gmail.com> wrote:
大量小文件的话,HDFS也不适合。
建议每小时合并出几个文件再写入

​采纳
原来这货简称MFS 我上一家公司貌似用过的
MooseFS 的数据容错做得如何
比如某个节点故障 是否会导致全部的数据无法读写





>>> blog  
Regards,
timger  

muxueqz(张明源)

unread,
Mar 9, 2014, 11:37:38 AM3/9/14
to dpark...@googlegroups.com
MooseFS默认是3份副本,数据节点会自动处理(恢复/ 均衡),但Master会有单点故障,自己要开metalogger和一些辅助方案(比如keepalived)来实现HA
PS: 可能有两个都简称MFS的


--
You received this message because you are subscribed to the Google Groups "DPark Users" group.
To unsubscribe from this group and stop receiving emails from it, send an email to dpark-users...@googlegroups.com.
For more options, visit https://groups.google.com/d/optout.

timger™

unread,
Mar 9, 2014, 10:32:35 PM3/9/14
to dpark-users

2014-03-09 23:37 GMT+08:00 muxueqz(张明源) <zhangmin...@gmail.com>:
MooseFS默认是3份副本,数据节点会自动处理(恢复/ 均衡),但Master会有单点故障,自己要开metalogger和一些辅助方案(比如keepalived)来实现HA
PS: 可能有两个都简称MFS的

​多谢 已用上
目前感觉良好​






>>> blog  
Regards,
timger  

timger™

unread,
Mar 10, 2014, 11:03:01 PM3/10/14
to dpark-users

2014-03-10 10:32 GMT+08:00 timger™ <yishen...@gmail.com>:
MooseFS默认是3份副本,数据节点会自动处理(恢复/ 均衡),但Master会有单点故障,自己要开metalogger和一些辅助方案(比如keepalived)来实现HA

​还真是 今天就master挂了一次
不过算是我使用不当吧





>>> blog  
Regards,
timger  

muxueqz(张明源)

unread,
Mar 11, 2014, 3:41:10 AM3/11/14
to dpark...@googlegroups.com
另外,Master挂掉记得用metarestore -a恢复,别自己mv,我就把自己坑过。。。


--
You received this message because you are subscribed to the Google Groups "DPark Users" group.
To unsubscribe from this group and stop receiving emails from it, send an email to dpark-users...@googlegroups.com.
For more options, visit https://groups.google.com/d/optout.

timger™

unread,
Mar 11, 2014, 5:44:05 AM3/11/14
to dpark-users

2014-03-11 15:41 GMT+08:00 muxueqz(张明源) <zhangmin...@gmail.com>:
另外,Master挂掉记得用metarestore -a恢复,别自己mv,我就把自己坑过。。。
​多谢
我刚mv完, 哈哈
不过没什么重要数据







>>> blog  
Regards,
timger  

timger™

unread,
Mar 17, 2014, 4:06:47 AM3/17/14
to dpark-users
2014-03-11 15:41 GMT+08:00 muxueqz(张明源) <zhangmin...@gmail.com>:
另外,Master挂掉记得用metarestore -a恢复,别自己mv,我就把自己坑过。。。

​@muxueqz
我在安装的时候没主意
直接data path用系统的目录了
DATA_PATH = /var/mfs
现在发现这个var机器的分区比较小
这个文件夹我如果直接转换成别的目录会影响什么文件系统吗?





>>> blog  
Regards,
timger  

muxueqz(张明源)

unread,
Mar 17, 2014, 4:57:24 AM3/17/14
to dpark...@googlegroups.com
mv 过去再改配置文件应该就可以了


--
You received this message because you are subscribed to the Google Groups "DPark Users" group.
To unsubscribe from this group and stop receiving emails from it, send an email to dpark-users...@googlegroups.com.
For more options, visit https://groups.google.com/d/optout.

timger™

unread,
Mar 17, 2014, 5:03:46 AM3/17/14
to dpark-users

2014-03-17 16:57 GMT+08:00 muxueqz(张明源) <zhangmin...@gmail.com>:
mv 过去再改配置文件应该就可以了

​多谢 
应该是这个理​





>>> blog  
Regards,
timger  
Reply all
Reply to author
Forward
0 new messages