2.1 Web Search Engine(万维网搜索引擎)

23 views
Skip to first unread message

redba...@gmail.com

unread,
Oct 29, 2006, 11:27:12 PM10/29/06
to cn.internet
http://210.32.137.90:8080/02/lesson/teach/search/ch2/Ch21.html
2.1 Web Search Engine(万维网搜索引擎)

上一节·下一节

2.1.1 AltaVista(http://www.altavista.com)

2.1.2 Excite(http://www.excite.com)

2.1.3 HotBot(http://www.hotbot.com)

2.1.4 Infoseek(http://www.infoseek.com)

2.1.5 Lycos(http://www.lycos.com)

2.1.6 WebCrawler(http://www.webcrawler.com)

2.1.7 Yahoo(http://www.yahoo.com)

Internet信息检索技术发展非常迅速,尤其是Web化的搜索方式正在成为普遍的检索模式并构成当今信息检索的基本方法,具体表现为各种Search
Engine(搜索引擎)的应用。 Search
Engine(搜索引擎)是Internet上具有查询功能的网页的统称,目前已多达数百种,包括Web
Search Engine(万维网搜索引擎) 、FTP Search
Engine(文件搜索引擎)、Email/WhitePage Search
Engine(电子函件/白页搜索引擎)、YellowPage Search
Engine(黄页搜索引擎)、Usenet Search
Engine(新闻论坛搜索引擎)、 Meta-Search
Engine(元搜索引擎)等类型。后面将依次介绍这些搜索引擎。

搜索引擎提供的搜索方式包括:

(1)简单搜索(Simple
Search,简记作SS):指输入一个单词(关键词)或两个单词以上的词组(短语),提交搜索引擎查询,这是最基本的搜索方式。大多数搜索引擎都约定把词组或短语放在引号""内。

(2)高级搜索(Advanced
Search,简记作AS):指用布尔逻辑组配方式查询,也叫定制搜索。也包括多词语句提问的任意查询。不同搜索引擎对语句中词与词之间的关系的处理方式不同。

(3)目录搜索(Catalog
Search,简记作CS):指按搜索引擎提供的分类目录逐级查询,用户一般不需要输入查询词,而是按照查询系统所给的几种分类项目,选择类别进行搜索,因而也叫分类搜索(Classified
Search)。

各个具体搜索引擎支持的搜索方式将在后面介绍时说明。

2.1 Web Search Engine(万维网搜索引擎)

这里主要介绍功能较完善、性能较优良、较有实用价值的七个万维网搜索引擎:AltaVista、Excite、HotBot、Infoseek、Lycos、WebCrawler和Yahoo。

2.1.1 AltaVista(http://www.altavista.com)

AltaVista是DEC公司1995年12月推出的万维网搜索引擎,其主页如图2.1所示。至1997年底,AltaVista标引的URL约有6000万个。

图2.1 AltaVista主页

AltaVista主页上栏是AltaVista标志和热点信息,中栏是经常变化的广告信息,Search后是查询选择及输入框,在输入框中输入查询词,再点击search按钮就能进行查询。AltaVista的搜索功能包括:(1)支持简单搜索,性能一般;(2)
支持高级搜索,性能优良;(3)不支持目录搜索。搜索类型可以选择the
Web(万维网页)或Usenet(新闻论坛)。

其特色和优势是:信息范围广泛,查全性能较好,提供多语种信息查询支持。

缺点:误检率高;虽有Usenet搜索能力,但性能较差。

AltaVista使用*作为通配符;支持+、-词操作,允许包含或者排除关键词;在高级搜索功能中提供了大量的选项,包括布尔运算符、嵌套、近似搜索和有日期限制的搜索等。

无论是简单搜索还是高级搜索,都允许将搜索限制到页面元素,例如标题(页名)或URL,或者甚至可以限制到某个域(系统名)或Web网点。

AltaVista对大小写字母敏感,当输入的查询词是大写字母时,AltaVista只查大写字母;而当输入的查询词是小写字母时,AltaVista同时查大小写字母。

例如,如果要查计算机通讯(computer
communicat*),同时要求增加包括有关卫星(satellite)的内容并减少有关电话(telephone)的内容,可以输入"computer
communicat*"; +satellite;
-telephone形式的检索策略,注意用";"将增减词隔开,";"后应空一格,如图2.2所示。

图2.2 用AltaVista查"计算机通讯 (含卫星而不含电话)"

点击Search查询后反馈结果见图2.3。

图2.3
用AltaVista查"计算机通讯(含卫星而不含电话)"反馈结果

即一共找到610412项网页主题既有"satellite"又有"computer
communicat*"的结果。

AltaVista搜索引擎演示

返回

2.1.2 Excite(http://www.excite.com)

Excite是由斯坦福大学1993年8月创建的Architext扩展而成的万维网搜索引擎,它能为简单搜索返回很好的结果,并能提供一系列附加内容,尤其适合经验不多的用户使用。用户可以查找网上的Web、Usenet、
NewsGroup或分类区。在同一个搜索框内可以输入简单的或高级的搜索策略,可以使用自然语言和布尔运算符。其主页如图2.4所示。至1997年底,Excite标引的URL已达5000万以上。

图2.4 Excite主页

Excite主页中栏Excite
Search下为查询选择及输入框,隐含查Web,可以选查People
Finder(个人信息)、Yellow Pages(黄页信息)、Stock
Quotes(股票指数)、Maps(地图)等项目,在输入框中输入查询词,点击Search按钮即可查询。下栏是Excite分类目录,上方有News
(新闻)、Stock(股票信息)、Free
Email(免费电子函件)、Weather(天气)
等快捷键。Excite的查询功能包括:(1)支持简单搜索,性能良好;(2)
支持高级搜索,性能一般;(4)支持目录搜索,性能良好。搜索类型缺省为Web(万维网页),也可查Usenet(新闻论坛,选News进入)、
Business(商用信息,选Yellow Pages进入)和
People(个人信息,选People Finder进入)。

其特色和优势是:对查出信息的组织精良,自身提供的信息优良,尤其是具有智能拓检功能。

缺点是:高级查询功能不佳,不能使用通配符。

Excite要求人名和公司名等专有名词第一字母必须大写。布尔逻辑组配包括逻辑与(用AND)、逻辑或(用OR)、逻辑非(用NOT),注意Excite中AND、OR、NOT不能小写。支持用括号来构成逻辑组。也可以使用词前加
+ 和 -
号来表示需要查的词和排除不需要查的词的操作。

图2.5是关于计算机与材料或能源 (computer AND
(material OR
energy))的查询实例。在搜索输入框内输入了computer AND
(material OR energy)
,是一个既含布尔运算符、又含逻辑组(带括号来构成逻辑组)的搜索条件。用鼠标点击Search按钮,进行搜索。

图2.5 用Excite查"计算机与材料或能源"

反馈结果见图2.6,它是按与所查课题相关百分比高低排列,每次显示10个网页标题、URL及网页的摘要(Summary),用户可以从中看出哪一个网点与需求关系最密切。显示第一个10个结果之后,用鼠标点击此页面下边的"Next
Results"按钮,可继续显示第二个10个检索结果、第三个10个检索结果等。页面中带蓝色部分,如"网页标题"及"More
Link
This:"都能链接相应的带有该内容的Web服务器。可以在列表中选择需要查看的网页,点击相应网页标题的蓝色部分,进入该系统查看其内容。

图2.6 用Excite查"计算机与材料或能源"反馈结果

Excite最大的特色是具有一定"智能",表现在找到一个所需条目时,选击其下方的More
Link
This:右边下划线部分,即可以以此条目为模本拓检。模本拓检就是说以此项内容为参考模板,查找网上信息与此内容相近的URL地址及内容列表。如对上例第一项:

86% E&E Web Page

URL: http://eande.lbl.gov/EE.html

Summary: The Energy & Environment Division is a primary research
partner

of the California Institute for Energy Efficiency (CIEE),an innovative
R&D

partnership of California utilities, energy agencies, and research
institutions.

The Division's Washington, D.C.Project Office enhances communication

between the Division, the U.S.Department of Energy, and other
Weshington-

based agencies.

Move Like This: Click here to perform a search for documents like this
one.

选击Move Like
This后链接部分即进行拓检,拓检结果如图2.7所示。列出了与该网点类似的网页。

图2.7 用Excite查"计算机与材料或能源"的拓检结果

Excite也支持类似AltaVista系统的任意词查询,任意搜索时缺省的逻辑组配关系为OR,即它搜索含有指定的任一单词。

返回

2.1.3 HotBot(http://www.hotbot.com)

HotBot是万维网搜索引擎的后起之秀,它具有第一流的高级搜索功能和新闻论坛搜索功能、图形化的搜索工具以及一系列的过滤选项,无论对于初学者还是高级用户都是一种很好的工具。至1997年底,HotBot标引的URL已达5400万。其主页如图2.8所示。

图2.8 HotBot主页

HotBot主页左栏是查询类型选择,缺省查Web,可选查Usenet、Businesses、People、Email
Addresses等,中栏是查询选项及输入框,可以用鼠标对其中的项目进行选择设置。在输入框中输入查询词,点击SEARCH按钮即可查询。右栏是广告和热点信息。HotBot的搜索功能包括:(1)支持简单搜索,性能良好;(2)
支持高级搜索,性能优秀;(4)支持目录搜索,性能良好。搜索类型缺省为Web(万维网页),也可查Usenet(新闻论坛)、Businesses(商用信息)和
People(个人信息)等。

其特色和优势是:高级搜索功能优良,尤其是支持目录搜索后的深入高级搜索。

美中不足的是页面色彩深重,不过习惯成自然。

HotBot对大小写字母敏感。
可以使用通配符*截词;词前加 + 和 -
号分别表示需查词和不查词;"
"和;分别指单词查询和短语查询。

HotBot的高级查询支持布尔逻辑组配,包括逻辑与(用and表示)
逻辑或(用or表示) 逻辑非(用not表示),查Internet和Java
或Visual C++的实例见图2.9。在look
for的查询方式的下拉菜单中有:all the words
(所有词,即要包括输入的所有词,词与词之间是与的关系)、any
of the
words(任何词,即只要有输入词中任一词就表示已满足条件,是或的关系)、exact
phrase(精确词组)、the page title(页面标题)、the
person(找个人信息)、links to this URL(找链接)、Boolean
phrase(布尔短语)。这里应选用"The Boolean phase
(布尔短语)";在查询的输入框中输入要查的词组:"Interent
and (Java or " Visual C++")"。

图2.9 用HotBot查"Internet和Java 或C++"

点击Search按钮,实查后反馈结果见图2.10。结果列出了标题、相关百分比、提要、网址和找到的日期。

图2.10 用HotBot查"Internet和Java 或C++"反馈结果

HotBot还提供有Super
Search功能,如图2.11所示,具有更多查询选择:

图2.11 HotBot的Super Search

即可以使用简单的下拉菜单创建复杂的布尔查询,按日期、地理区域和媒体类型执行限制性搜索,并且可以设置被搜索页面的深度。还允许按域名搜索,也就是说可以输入公司的名称或URL的一部分,以获得实际的链接。

HotBot支持自然语言查询,词间逻辑关系可以选择AND(all
the words)或OR (any of the words)。

返回

2.1.4 Infoseek(http://www.infoseek.com)

Infoseek是Infoseek公司1995年2月推出的万维网搜索引擎,它是一个综合网点,提供了很多有用的附加服务,包括通过电子函件发送新闻、外国语搜索、按地理区域的搜索以及个人的金融文件夹等。它的新闻搜索能访问许多一流的资源,如Bussinesswire、路透社、CNN等。其主页如图2.12所示。至1997年底,Infoseek
标引的URL已达8000万。

图2.12 Infoseek主页

Infoseek主页左下块New
search为查询选择及输入框,可以用鼠标选Web(万维网页)、News(新闻)、Newsgroups(新闻组)或Companies(公司),然后在输入框中输入查询词,再点击seek按钮即可查询。右下块是分类目录,供目录搜索用。上栏是Stock(股票信息)、News(新闻)、Maps(地图)、People
& Business(查人和企业)、Reference(参考信息)、Yellow
Page(黄页信息)等快捷键。Infoseek的搜索功能包括:(1)支持简单搜索,性能优秀;(2)
支持高级搜索,性能良好;(4)支持目录搜索,性能良好。搜索类型缺省为Web(万维网页),也可查Usenet(新闻论坛,选Newsgroups或
News)、Business(商用信息,选Companies或Yellow Page或People &
Business)等。

其特色和优势是:简单搜索和词组搜索优于几乎所有引擎,是一个又好又快的搜索引擎。附加的新闻搜索功能也较优良。

Infoseek采用词频统计方法来确定词语重要性和相关性,可以按词序检索,区分大小写字母;可使用*作为通配符;词前加
+ 和 - 号分别表示需查词和不查词;"
"和;分别指词组查询和短语查询。图2.13是查机器人与CAD/CAM/CAE
(robot AND (CAD OR CAM OR CAE))的实例。

图2.13 用Infoseek查"机器人与CAD/CAM/CAE"

在搜索输入框中输入:robot AND (CAD OR CAM OR
CAE),点击seek按钮开始查询,反馈结果见图2.14。

图2.14 用Infoseek查"机器人与CAD/CAM/CAE"反馈结果

Infoseek使用包括文档中查询词出现的频率和位置在内的一些因素对搜索结果进行排列,多数返回值中都附有指向Infoseek目录中的相关主题的新闻文献的列表。要查看相应网点的详细内容,可点击对应的下划线链接部分,还可通过"More
results from this site..."项查看到更多相关信息。

无论在返回的索引中还是在相关的条目中,Infoseek
总是能提供有用的信息。

返回

2.1.5 Lycos(http://www.lycos.com)

Lycos是American Online公司从Carnegie
Mellon大学收购的万维网搜索引擎,它曾是最早的搜索引擎之一,具有多数的搜索选项和内容丰富的目录,执行简单搜索时能返回较好的结果。其主页如图
2.15所示。至1997年底,Lycos标引的URL已达3100万以上。

图2.15 Lycos主页

Lycos主页中栏 Search
for后为查询输入框,在输入框中输入查询词,点击Go
Get
It按钮即可查询。右下左栏是分类目录,供目录搜索用。上栏右方有News(新闻)、Weather(天气)、Free
Email(免费电子函件)等快捷键。
Lycos的搜索功能包括:(1)支持简单搜索,性能良好;(2)
支持高级搜索,性能一般;(4)支持目录搜索,性能良好。搜索类型缺省为The
Web(万维网页),也可查Usenet(新闻论坛,选Discussion
Groups进入)、Business(商用信息,选Yellow Pages进入)和
People(个人信息,选People Find进入)。

其特色和优势是:具有独特的Top 5%功能。

Lycos使用$作为通配符,不支持+、-词操作,但提供英文举号(.)作为禁扩符,输入词后加.表示要求完全匹配,如gene.就只查gene,排除查其他词。Lycos建立标题字段,显示主页的所有标题,支持逻辑组配高级查询,包括逻辑与(用AND或and表示)
逻辑或(用OR或or表示)
逻辑非(用NOT或not表示),允许精确短语和自然语言搜索。

它提供关键词和主题查询(主题查询叫做目录服务)。它的查询速度快、使用简便、索引很大,但最新新闻搜索却很差。有一个下拉菜单,允许选择搜索Web、图片、声音、"TOP
5%"Web网点或个人页面。

Lycos系统的一个特点是对提问可选择五种不同的匹配命中级别:松匹配、一般匹配、良好匹配、紧密匹配和强匹配。允许指定查询中的任意或所有的词,并可以指定返回结果的显示方式。显示控制包括OR(缺省)、AND等;每页显示检索结果的数量可选择每次显示10,20,30或40个检索结果;显示结果的格式分为标准型、小结型和详细型等。

Lycos的最大特色是专门整理了一份占前5%的热门网址,在其主页右上方选击Top
5%
Sites进入,见图2.16。页面右边分了十六大类(典型目录)。

图2.16 Lycos收集的热门网址目录

若进入技术(Technology)类,即得如图2.17所示结果。

图2.17 Lycos技术类热门网点

每大类中还分有若干小类,以满足更专门的需要。而且还可以在图2.40中的Search
Top 5%下的搜索输入框中输入想查的类别或主题,点击Go
Get It 按钮,直接在热门网点中查得对应结果。

返回

2.1.6 WebCrawler(http://www.webcrawler.com)

WebCrawler是1994年4月入网的,它也是最早的万维网搜索引擎之一,1995年被American
Online收购,其主页如图2.18所示。至1997年底,WebCrawler标引的URL已达2800万以上。

图2.18 WebCrawler主页

WebCrawler主页与Excite类似,中栏有查询选择及输入框,输入框下方可选查yellow
pages、people
finder、maps、weather等,输入查询词后点击Search按钮可查。左下栏是分类目录,供目录搜索用。右下栏提供一些服务项目。
WebCrawler的搜索功能包括:
(1)支持简单搜索,性能一般;(2)
支持高级搜索,性能一般;
(4)支持目录搜索,性能良好。搜索类型缺省为Web(万维网页),也可查Business(商用信息,选yellow
pages进入)和 People(个人信息,选people finder进入)。

其特色和优势是:任意搜索性能优良,约定多个词之间的逻辑关系为AND;附加最新新闻搜索功能优良。

WebCrawler不支持通配符,不支持+、-词操作。它脱胎于Excite又不同于Excite,虽然整体性能不如Excite,但
WebCrawler的分类频道提供了通往高质量的网点和聊天室的链接,其最新新闻搜索的响应准确性和及时性也超过Excite。此外,
WebCrawler的信息经过精选,用户界面简单友好,响应快,适合训练新用户;支持自然语言查询,也支持高级查询。

图2.19是查微机与商业(Microcomputer AND
Business)的实例。在搜索输入框中输入:Microcomputer AND
Business,点击Search按钮,开始查找。

图2.19 用WebCrawler查"微机与商业"

本例的反馈结果见图2.20。先显示986项与要求相匹配中相关百分数最高的25项信息所在的Web页名列表,没有URL地址,也没有相关的注释,点击相应的Web页名(蓝色链接)部分才能阅读更详细的内容。

图2.20 用WebCrawler查"微机与商业"反馈结果

当然,这是用系统约定的简单格式(只有网页标题)显示的情形,WebCrawler也提供详细格式(含网页标题、网页摘要、URL和可靠等级的数字)
显示选择,还可以设置显示的层数,也可以选择设置每页显示的结果数:10、25或100。WebCrawler查得的每个结果的链接都允许再搜索"相似的页(Similar
Pages)",这类似于Excite 的"More Like This"选项。

WebCrawler最具特色的附加功能是提供网络统计功能和反向搜索功能,用后者可以看到谁连到了自己的网页上,方法是选击其主页上的
my page按钮。

返回

2.1.7 Yahoo(http://www.yahoo.com)

Yahoo是世界上最早的搜索引擎之一,它是1994年4月Standord大学人员研制的,1995年成立Yahoo!公司,David
Filo 和Jerry
Yang(杨致远,华人)是两位主要创建人,该公司营业收入主要来自电子广告。Yahoo同Netscape关系很密切。Netscape
Navigator/Communicator都直接引用Yahoo作为浏览器的Internet搜索引擎。
Yahoo拥有第一流的Web目录和最佳的新闻链接以及许多附加服务,因而Yahoo拥有许多用户,每天约有4000000人次访问。其主页如图2.21所示。

图2.21 Yahoo主页

Yahoo主页中栏有查询选择及输入框,输入框下方可选查Yellow
Pages、People
Search、Maps、News等,输入查询词后点击Search按钮可查。主页下部是详尽的分类目录,供目录搜索用。Yahoo的搜索功能包括:
(1)支持简单搜索,性能良好;(2)支持高级搜索,性能一般;(3)支持目录搜索,性能优秀。搜索类型缺省为Web(万维网页),也可查Usenet
(新闻论坛,选News进入)、Business(商用信息,选Yellow
Pages进入)和 People(个人信息,选People Search进入)。

其特色和优势是:目录搜索功能优秀,最新新闻搜索功能优良。

可以使用*作为通配符,支持+、-词操作。

(1)目录查询

Yahoo的真正优势在于其分类目录的内容组织。它对网点信息按主题建立分类索引,按字母顺序列出14个大类,每个大类所包含的子类有精练的描述,每个子类有数以千计的相关的Internet网点信息。其包含的主题范围广泛,汇集了26万分类URL,并且能将搜索限制在某一类别内。大类情况见图
2.22,这是由人工参与建立的,故标引较准确,因而查准率较高。无论是偶尔浏览还是着意搜索,使用Yahoo都是很好的选择。不同部分之间广泛的交叉引用方便了浏览,并且,用户也特别喜欢用大纲形式查看完整的目录结构。

图2.22 Yahoo分类主题

Yahoo的目录查询使用很简单,只要进入其网点,选定所查主题,逐级进入即可。如查艺术与人文科学类,选击Art
and Humanities链接选项,得图2.23。

图2.23 Yahoo艺术与人文科学类

其中每小类括号后的数字表示与该小类相关的URL数量,如Art
History(艺术史)就是有1439条相关的URL地址,@表示多处相关。在图2.23中再选艺术史(Art
History),就得到图2.24。

图2.24 Yahoo艺术史小类分类查询结果

图2.24中上方为
满足查询条件的Yahoo的细目,下方是满足条件的实际站点(每一项目都引向有关艺术史的主页)。

Yahoo搜索引擎演示

1998年初国外对以上搜索引擎作过评测,现将结果列示如下:
搜索引擎 简单搜索 高级搜索 目录搜索 新闻搜索
附加内容 易用性
AltaVista C A N D N C
Excite B A B A D A
HotBot B A B A D A
Infoseek A B B A C A
Lycos B C B D C B
NLSearch A N N C B C
WebCrawler C B B A B B
Yahoo B C A A B A

其中各项字母含义是:A:优;B:良;C:中;D:差;N:测试时无此功能。

总的来说,Infoseek是又快又好的Web Search
Engine,Yahoo在目录搜索和易用性方面首屈一指,HotBot和
AltaVista的高级搜索优良,Excite具有智能拓检能力,Lycos有Top
5%,NLSearch有定制搜索文件夹,WebCrawler的任意查询较佳,可以根据自己的需要选用。

Reply all
Reply to author
Forward
0 new messages