网页分类的训练集

16 views
Skip to first unread message

liuyanque

unread,
Jul 13, 2008, 10:36:53 PM7/13/08
to cwirf
我下载了example1.dat数据集,也下载了读取原始训练集文件的工具,但是运行这个工具总是出错。我刚开始学习网页分类,想请教大家,怎么读取
那个训练集,用那个读取的工具读取出来是什么格式什么内容的呢?请知道的人帮帮我吧,一头雾水,呜呜

Hongfei Yan

unread,
Jul 14, 2008, 4:39:21 AM7/14/08
to cw...@googlegroups.com
负责分类的学生已经毕业,

请阅读源程序
http://www.cwirf.org/SharedRes/Tool/makeindex.c

2008/7/14 liuyanque <lesa0...@163.com>:

liuyanque

unread,
Jul 14, 2008, 7:49:15 AM7/14/08
to cwirf
我下载了这个源程序,但是运行总出问题。另外我想问问example1.dat数据集里的数据是什么含义,是怎么跟划分了这些网页的类别。可以看到每一
个网页的前边都加了一行信息,那行信息是什么含义呢?比如这样的:972 01 Be http://batz.silversand.net/keywest/home.htm
05226
972是什么含义呢?据我猜测01好像是下边网页的类别代码,那么05226是什么含义呢?请教。

On 7月14日, 下午4时39分, "Hongfei Yan" <yhf1...@gmail.com> wrote:
> 负责分类的学生已经毕业,
>
> 请阅读源程序http://www.cwirf.org/SharedRes/Tool/makeindex.c
>
> 2008/7/14 liuyanque <lesa021...@163.com>:
>
>
>
> > 我下载了example1.dat数据集,也下载了读取原始训练集文件的工具,但是运行这个工具总是出错。我刚开始学习网页分类,想请教大家,怎么读取
> > 那个训练集,用那个读取的工具读取出来是什么格式什么内容的呢?请知道的人帮帮我吧,一头雾水,呜呜- 隐藏被引用文字 -
>
> - 显示引用的文字 -

Hongfei Yan

unread,
Jul 14, 2008, 9:52:40 PM7/14/08
to cw...@googlegroups.com

Hongfei Yan

unread,
Jul 14, 2008, 10:02:31 PM7/14/08
to cw...@googlegroups.com, gongbihong
那个源程序没有错误,我刚运行了一下。源程序读的是example.dat,改成example1.dat就可以了。

yhf@yhf:~/200807/YQ-WEBBENCH-V1.1$ ./makeindex
 0 testnum = 0
01 527 testnum = 120
03 1035 testnum = 240
04 1861 testnum = 440
05 1161 testnum = 290
07 369 testnum = 90
08 1111 testnum = 265
10 2353 testnum = 565
11 371 testnum = 90
12 2231 testnum = 520
13 2894 testnum = 680
14 1395 testnum = 330
cate_num is 12
total page is 15308

2008/7/15 Hongfei Yan <yhf...@gmail.com>:

liuyanque

unread,
Jul 20, 2008, 4:06:20 AM7/20/08
to cwirf
谢谢你,我用example1.dat运行这个程序,运行到一半就报错退出了,我截取了其中的一部分内容运行就没有问题了,但是统计出来的结果有问题。
谢谢你帮我运行这个程序,我已经自己写程序用另外的方法读取了里边的内容,而且基本可以得到我要的内容。
谢谢你!
你做过网页分类吗?或者文本分类之类的程序吗?

On 7月15日, 上午10时02分, "Hongfei Yan" <yhf1...@gmail.com> wrote:
> 那个源程序没有错误,我刚运行了一下。源程序读的是example.dat,改成example1.dat就可以了。
>
> yhf@yhf:~/200807/YQ-WEBBENCH-V1.1$ ./makeindex
> 0 testnum = 0
> 01 527 testnum = 120
> 03 1035 testnum = 240
> 04 1861 testnum = 440
> 05 1161 testnum = 290
> 07 369 testnum = 90
> 08 1111 testnum = 265
> 10 2353 testnum = 565
> 11 371 testnum = 90
> 12 2231 testnum = 520
> 13 2894 testnum = 680
> 14 1395 testnum = 330
> cate_num is 12
> total page is 15308
>
> 2008/7/15 Hongfei Yan <yhf1...@gmail.com>:
>
>
>
> > 这里面有说明
> >http://www.cwirf.org/2005WebTrack/trainset_intro_v1.1.pdf
>
> > 2008/7/14 liuyanque <lesa021...@163.com>:
>
> >> 我下载了这个源程序,但是运行总出问题。另外我想问问example1.dat数据集里的数据是什么含义,是怎么跟划分了这些网页的类别。可以看到每一
>
> >> 个网页的前边都加了一行信息,那行信息是什么含义呢?比如这样的:972 01 Be
> >>http://batz.silversand.net/keywest/home.htm
> >> 05226
> >> 972是什么含义呢?据我猜测01好像是下边网页的类别代码,那么05226是什么含义呢?请教。
>
> >> On 7月14日, 下午4时39分, "Hongfei Yan" <yhf1...@gmail.com> wrote:
> >> > 负责分类的学生已经毕业,
>
> >> > 请阅读源程序http://www.cwirf.org/SharedRes/Tool/makeindex.c
>
> >> > 2008/7/14 liuyanque <lesa021...@163.com>:
>
> >> 我下载了example1.dat数据集,也下载了读取原始训练集文件的工具,但是运行这个工具总是出错。我刚开始学习网页分类,想请教大家,怎么读取
> >> > > 那个训练集,用那个读取的工具读取出来是什么格式什么内容的呢?请知道的人帮帮我吧,一头雾水,呜呜- 隐藏被引用文字 -
>
> >> > - 显示引用的文字 -- 隐藏被引用文字 -
>
> - 显示引用的文字 -

Hongfei Yan

unread,
Jul 20, 2008, 4:18:10 AM7/20/08
to cw...@googlegroups.com
http://en.wikipedia.org/wiki/Statistical_classification

SVM实现有
http://svmlight.joachims.org/
http://www.csie.ntu.edu.tw/~cjlin/libsvm/

自己如果实现,做Naive Bayes classifier,应该比较简单。

2008/7/20 liuyanque <lesa0...@163.com>:

liuyanque

unread,
Jul 20, 2008, 8:54:30 AM7/20/08
to cwirf
谢谢你,我学习学习试试看,打算用svm来做分类。

On 7月20日, 下午4时18分, "Hongfei Yan" <yhf1...@gmail.com> wrote:
> http://en.wikipedia.org/wiki/Statistical_classification
>
> SVM实现有http://svmlight.joachims.org/http://www.csie.ntu.edu.tw/~cjlin/libsvm/
>
> 自己如果实现,做Naive Bayes classifier,应该比较简单。
>
> 2008/7/20 liuyanque <lesa021...@163.com>:
Reply all
Reply to author
Forward
0 new messages