关于作业的小建议

49 views
Skip to first unread message

Han Jiang

unread,
Jul 26, 2014, 9:36:58 PM7/26/14
to cs40...@googlegroups.com
在批改第三次作业的时候,有三个小问题:

1. 因为在代码里写了FileSystem.get(conf).delete,有些同学的程序跑完后就把输出文件删掉了。其实我们在改作业的时候有时也会查看一下你们在DFS上的输出记录,所以,在提交第四次作业前,建议大家把上回跑成功的输出文件保留下来吧。
2. 有些同学的报告写得实在很简单,但我查看你们先前的输出文件时,却可以发现很多版本的输出 (比如提交的报告中没有说到实现了KWIC,但在输出记录中却找到了),还是建议在报告中说明清楚吧。
3. 报告中就不要把所有代码都贴上去了哈,这反而会让我们很难找到你想说明的意思,截取片段就可以了。

希望对大家的下次作业有所帮助,有什么问题请尽早问出来。加油!

Han Jiang

unread,
Jul 26, 2014, 9:55:36 PM7/26/14
to cs40...@googlegroups.com
看有些同学正在忙第四次的作业,再加一条建议吧:

smallwiki这个文件其实挺大的,在程序调对之前就在上面跑还是很费时间的,推荐自己制作一些小一点的测试输入,方面调试。

比如: /cs402/jh/miniwiki-test.xml

郭行健

unread,
Jul 26, 2014, 10:58:10 PM7/26/14
to cs40...@googlegroups.com
smallwiki中的dangling node不是一般的多。。。

在 2014年7月27日星期日UTC+8上午9时55分36秒,Han Jiang写道:

Han Jiang

unread,
Jul 26, 2014, 11:01:51 PM7/26/14
to cs402pku
用最简单的正则去重后都可以出50多万条,如果考虑到[[tag|[ref]]]这种模式的话规模就更大了...


--
You received this message because you are subscribed to the Google Groups "cs402pku" group.
To unsubscribe from this group and stop receiving emails from it, send an email to cs402pku+u...@googlegroups.com.
To post to this group, send email to cs40...@googlegroups.com.
Visit this group at http://groups.google.com/group/cs402pku.
For more options, visit https://groups.google.com/d/optout.



--
Han Jiang

Team of Search Engine and Web Mining,
School of Electronic Engineering and Computer Science
,
Peking University, China
Reply all
Reply to author
Forward
0 new messages