reduce阶段如果没有收到结点的邻接表该如何处理?

39 views
Skip to first unread message

Xin Lv

unread,
Jul 28, 2014, 10:16:11 AM7/28/14
to cs40...@googlegroups.com
RT,如果说在算法中reduce阶段某一结点没有收到它的邻接表信息,换言之,原来的数据集里面没有这个页面的邻接表信息,你们是如何处理的?

对于这种结点,还需要输出它的信息到文件中吗?不知道这么晚了还有没有人回复,谢谢!

赵一帆

unread,
Jul 28, 2014, 10:48:16 AM7/28/14
to cs40...@googlegroups.com
我反正是把这种节点变成一个dangling node处理的。。

在 2014年7月28日星期一UTC+8下午10时16分11秒,Xin Lv写道:

Xin Lv

unread,
Jul 28, 2014, 10:53:05 AM7/28/14
to cs40...@googlegroups.com
就是。。small-wiki里的数据建图应该是1W多个结点吧(如果没弄错),对于那些small-wiki里没有的结点(几十万个。。),需要也在图中弄个结点一起算pagerank值么?

在 2014年7月28日星期一UTC+8下午10时48分16秒,赵一帆写道:

杨博文

unread,
Jul 28, 2014, 11:55:10 AM7/28/14
to cs40...@googlegroups.com
悬挂节点太多。正常节点只有10207个

在 2014年7月28日星期一UTC+8下午10时53分05秒,Xin Lv写道:

Jack Ji

unread,
Jul 28, 2014, 12:04:13 PM7/28/14
to cs40...@googlegroups.com
丢掉或者留下得到两种不同的结果。

赵一帆

unread,
Jul 28, 2014, 10:12:31 PM7/28/14
to cs40...@googlegroups.com
留下和丢掉确实是两种结果,数据量也差很多,楼下说的没错
不过个人觉得还是留下更合理=_=
404 NOT FOUND和dangling node在用户看来只有是否具有信息量这一差别
信息在PR算法里是不需要的

在 2014年7月28日星期一UTC+8下午10时53分05秒,Xin Lv写道:
Reply all
Reply to author
Forward
0 new messages