Dpark & TF-IDF

82 views
Skip to first unread message

kenneth

unread,
Jun 14, 2013, 11:24:52 AM6/14/13
to dpark...@googlegroups.com
Dear Davies,
      我最近尝试用Dpark做一些大数据处理分析文章词频的工作,有一些疑问,希望能得到你的帮助。

1.Dpark是不是只适合处理日志这样的大文件?
2.我想对数据中某个表所有记录求一个词频Dpark能做?是否需要先转成文件?
3.如果我想将分布式计算结果,保存到数据库中如何做?

from kenneth

Davies Liu

unread,
Jun 14, 2013, 11:57:49 AM6/14/13
to dpark...@googlegroups.com

2013/6/14 kenneth <kenne...@gmail.com>

Dear Davies,
      我最近尝试用Dpark做一些大数据处理分析文章词频的工作,有一些疑问,希望能得到你的帮助。

1.Dpark是不是只适合处理日志这样的大文件?
 
DPark 是一个通用的 MapReduce 计算框架, 理论上任何计算都是可以的. 分析词频, 建索引这类都是没问题的, 豆瓣内部也有类似的任务.
 
2.我想对数据中某个表所有记录求一个词频Dpark能做?是否需要先转成文件?

如果源数据在数据库里面, 导出为文件的话, 更容易并行计算, 否则瓶颈会是在数据库读取数据上. 可以使用  csv 文件格式, DPark 已经支持了, 如果是其他格式, 可以自己实现一个解析的RDD, 可以参考DPark 里面TextFileRDD 的实现.
 
3.如果我想将分布式计算结果,保存到数据库中如何做?

可以用RDD.saveAsTextFile() 将结果集保存为文本文件, 然后再写个程序导入到数据库就行了.
 

from kenneth

--
You received this message because you are subscribed to the Google Groups "DPark Users" group.
To unsubscribe from this group and stop receiving emails from it, send an email to dpark-users...@googlegroups.com.
For more options, visit https://groups.google.com/groups/opt_out.
 
 



--
 - Davies

kenneth

unread,
Jun 15, 2013, 2:21:16 AM6/15/13
to dpark...@googlegroups.com
非常感谢Davies你这么详细的回复。
我自己写了一个测试脚本
我直接运行python test_dpark.py能计算出正确结果,但是我尝试多进程方式运行却一直卡着,不知道什么原因。

# python test_dpark.py -m process -p 4
2013-06-15 14:03:58,941 [INFO] [scheduler] Got a job with 2 tasks: <MappedRDD <FlatMappedRDD <TextFileRDD /var/www//data.csv>>>
2013-06-15 14:04:31,476 [INFO] [scheduler] Job finished in 32.5 seconds                   
2013-06-15 14:04:31,529 [INFO] [scheduler] Got a job with 2 tasks: <ShuffledRDD <MappedRDD <FlatMappedRDD <TextFileRDD /var/www/data.csv>>>>

Davies Liu

unread,
Jun 15, 2013, 8:01:25 AM6/15/13
to dpark...@googlegroups.com
看起来是你第二个 job (即计算的第二阶段) 还没完成, 可能是计算比较慢, 或者摸个原因卡主了.

你可以用 top 和 strace 等工具看看 那几个进程在干嘛.

2013/6/15 kenneth <kenne...@gmail.com>

kenneth

unread,
Jun 17, 2013, 1:14:56 AM6/17/13
to dpark...@googlegroups.com
好的,非常感谢,我自己再实践一下。

from kenneth

Li Jun

unread,
Aug 22, 2013, 4:01:16 AM8/22/13
to dpark...@googlegroups.com
请问这个问题解决了吗,我也碰到同样的问题。我看了下只要是指定在mesos上运行且涉及到读取文件的操作就会卡住。另外,我把可执行脚本和数据都放在mfs上也是如此。

Li Jun

unread,
Aug 22, 2013, 6:02:03 AM8/22/13
to dpark...@googlegroups.com
找到原因了,是因为防火墙的问题。dpark需要开放一些端口。但是根据观察,每一次启动任务port都不一样,这样防火墙规则不太好设置,请问Davies,能静态设置port麽
@Davies @kenneth

Davies Liu

unread,
Aug 22, 2013, 10:39:49 AM8/22/13
to dpark...@googlegroups.com
DPark 只是一个库,在同一个服务器上可能会有多人同时使用,指定端口的方式可能不太合适。

内网一般不需要做过于激进的防火墙设定吧,一般封禁外网的访问即可。如果有一个比较开放的内网用户内部使用,应该会比较合适。

2013/8/22 Li Jun <fikht...@gmail.com>:
Reply all
Reply to author
Forward
0 new messages