关于dpark的内存回收

47 views
Skip to first unread message

D.Y Feng

unread,
Feb 20, 2014, 6:17:05 AM2/20/14
to dpark...@googlegroups.com
在使用Streaming的过程中,发现dpark的内存在不断稳增,不知道是不是什么地方没有释放内存?

--
                                                       

DY.Feng(叶毅锋)
yyfeng88625@twitter
Department of Applied Mathematics
Guangzhou University,China
dyf...@stu.gzhu.edu.cn
                                                       

D.Y Feng

unread,
Feb 21, 2014, 12:18:38 AM2/21/14
to dpark...@googlegroups.com
用meliae跟踪内存看到,DAGScheduler.shuffleToMapStage存放了所有的RDD数据,只有DAGScheduler.clear才清除,再往上就是DparkContext.clear调用DAGScheduler.clear来清除,可是DAGScheduler.clear貌似从来没有被调用过...是不是应该在DparkContext.runJob以后调用下clear?对Dpark架构不熟悉,纯属猜测,不知道会不会影响到重算。

Davies Liu

unread,
Feb 21, 2014, 12:34:33 AM2/21/14
to dpark...@googlegroups.com
在做迭代计算的时候(Streaming),RDD是一个依赖链,得依靠定期做checkpoint来清理历史依赖释放内存。

如果是没有依赖得独立计算,RDD应该是会自动释放的,个别情况下也可以调用 Context.clear() 甚至 stop() 来释放内存。
> --
> You received this message because you are subscribed to the Google Groups
> "DPark Users" group.
> To unsubscribe from this group and stop receiving emails from it, send an
> email to dpark-users...@googlegroups.com.
> For more options, visit https://groups.google.com/groups/opt_out.



--
- Davies

D.Y Feng

unread,
Feb 21, 2014, 12:53:47 AM2/21/14
to dpark...@googlegroups.com
如果说定时做做Context.clear(),这样子会不会有什么副作用的?如果不clear,一天下来内存就被吃完了.
Reply all
Reply to author
Forward
0 new messages