”搜索引擎:原理、技术与系统“中第七章提到的DocView网页净化

3 views
Skip to first unread message

gracexu

unread,
Nov 7, 2008, 1:19:51 PM11/7/08
to cwirf
可以找到开源代码吗? 好像并没有融入天网的代码中。
如果没有的话,各位能否推荐一个比较好的网页净化工具?
我做的是自然语言处理,想要的是对HTML网页提取正文。但是用htmlparser发现网页上噪声太多,广告,底下的小字,hub型网页中的无关文字
等,严重影响了我的结果。

谢谢:)

Hongfei Yan

unread,
Nov 11, 2008, 6:48:47 AM11/11/08
to cw...@googlegroups.com, ShinningMonster(mao xl)
我们正要release出来一个开源的,可惜MAO Xianling放出来的我都不会用,估计还要等等。

2008/11/8 gracexu <gracex...@hotmail.com>

Hongfei Yan

unread,
Dec 14, 2008, 9:03:22 AM12/14/08
to cw...@googlegroups.com, zhulei. pku, pl...@net.pku.edu.cn
我们有一个新的网页净化工具发布在,
http://sewm.pku.edu.cn/src/paradise/analysis_index/QuarkRecognizer/

在32位的机器上可以,在64位机器上会core掉。


2008/11/8 gracexu <gracex...@hotmail.com>:

图灵刘江

unread,
Jan 1, 2009, 9:30:33 AM1/1/09
to cwirf
闫老师:

这本书有新版计划么?感觉业内关注度很高,但是书并不好买到。

On 2008年11月11日, 下午7时48分, "Hongfei Yan" <yhf1...@gmail.com> wrote:
> 我们正要release出来一个开源的,可惜MAO Xianling放出来的我都不会用,估计还要等等。
>

> 2008/11/8 gracexu <gracexu_2...@hotmail.com>

Hongfei Yan

unread,
Jan 1, 2009, 9:43:26 AM1/1/09
to cw...@googlegroups.com
有计划呀,准备2009年出第二版呢。
原来的可以这里下载
http://sewm.pku.edu.cn/book/dlbook.html


封了stories,谢谢提醒。

2009/1/1 图灵刘江 <liuj....@gmail.com>
Reply all
Reply to author
Forward
0 new messages