网络信息资源检索是当前进行信息全方位检索的重要途径,网络信息检索与手工信息检索最大的区别就在于网络信息检索技术的特殊性、检索范围的广阔和网络信息的海量特点,这使得检索必须依靠一定的特殊检索工具才能完成。
一、网络搜索引擎简介
现代意义上的搜索引擎起源可以追溯到1990年由加拿大蒙特利尔大学学生ALANEMTAGE开发的ARCHIE。虽然当时 WEB还未出现,但网络中的文件传输已经相当频繁,而且由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,于是A1ANEMTAGE想到开发一个可以以文件名查找文件的系统,用于检索分散在各FTP服务器上的文件,其工作原理与现在的搜索引擎很接近,就是依靠脚本程序自动搜索网上的文件,然后对相关信息进行索引,供用户以特定方式查询,ARCHIE就这样诞生了。由于ARCHIE深受用户欢迎,在其基础上,美国内华达SYSTEM COMPUTINGSERVICES大学于1993年开发了另—个与之非常相似的搜索工具,此时的搜索工具除了索引文件外,已能检索网页。当时,编程者中十分流行“机器人”一词。电脑“机器人”(COMPUTERROBOT)是指某种能以人类无法达到的速度不间断地执行某项任务的软件程序。编程者开发出专门用于检索信息的“机器人”程序,由于它像蜘蛛一样在网络间爬来爬去,因此,搜索引擎的“机器人”程序就被称为“蜘蛛”(SPIDER)程序。
世界上第一个用于检测互联网发展规模的“机器人”程序是 MATTHEWGRAY开发的 WORLDWIDEWEBWANDERER。刚开始它只用来统计互联网上的服务器数量,后来则发展为能够检索网站域名的程序。与 WANDERER相对应,MARTIN KOSTER于 1993 年 10 月创建了 ALIWEB,它是 ARCHIE的 HTTP 版本。ALIWEB不使用“机器人”程序,而是靠网站主动提交信息来建立自己的链接索引,类似于现在人们熟知的YAHOO。
随着互联网的迅速发展,检索所有新出现的网页变得越来越困难,与此同时,一次检索领域的伟大变革已经开始酝酿,一些编程者开始设想,既然所有网站都可能有连接其他网站的链接,那么从跟踪一个网站的链接开始,就有可能检索整个互联网。在MATTHEWGRAY的 WANDERER基础上,传统的“蜘蛛”程序工作原理得到了改进。到1993年底,一些基于新原理的搜索引擎开始纷纷涌现。
1995年后,搜索引擎进入了高速发展时期,被誉为仅次于门户网站的互联网第二大核心技术。作为互联网上的一种核心技术,搜索引擎要用到信息检索、数据库、分布式处理、计算机网络、人工智能、数据挖掘、自然语言处理等多领域的理论和技术,具有综合性和挑战性。伴随互联网的普及和网上信息的飞速增长,它越来越引起人们的重视。
网络搜索引擎(SEARCHENGINE)是通过采集、标引、整合网络信息资源,建立描述网络资源的索引数据库和分类数据库,构建INTERNET网络资源控制与检索机制,为人们提供一个查询网络信息资源的检索平台。搜索引擎实际上就是一个 WWW网站,具有易用、便捷、信息量大与灵活多样等特点。由于其独特的风格和优势,目前搜索引擎已经成为人们检索互联网络信息资源必不可少的导航工具。网络搜索引擎是对网络信息资源进行搜索最有效的手段。在互联网发展初期,网站相对较少,信息查找比较容易。但随着互联网的迅猛发展,网上信息已呈爆炸性增长,据估计,全球目前的网页超过5500亿个,而且还在以每天100万页以上的速度增加。用户要在如此浩瀚的信息海洋里寻找信息,如同大海捞针、沙中淘金,难度巨大且很容易无功而返。于是,一些为满足大众信息检索需求的专业搜索网站———搜索引擎便应运而生了。
搜索引擎以一定的策略在互联网中搜集、寻找信息,对符合检索要求的信息进行理解、提取、组织、处理,为用户提供检索服务,起到信息导航的作用。搜索引擎仅次于电子邮箱,排在用户使用各种互联网服务排名的第2位,同时86.9%的用户得知新网站的主要途径是通过搜索引擎,搜索引擎已成为未知状态下发现有效信息最有效的方式,是网络生活中必不可少的工具,是遨游网络世界的指南针和地图。
二、网络搜索引擎的特点
搜索引擎是一种搜索因特网信息的软件系统,也是因特网的导航工具,它通过采集、标引因特网资源,将因特网中的信息资源进行整理和分类,形成一个完整的集合,完成对因特网海量信息资源的控制与检索,其目的是方便用户查找所需的信息。搜索引擎在其发展过程中,形成自己的有别于其他检索工具的特点。
(1)使用方便。搜索引擎一般由分类目录和关键词检索两部分组成。如果用户只是想了解某一领域的信息,暂不准备对此作进一步深入、细致的调查研究,那么分类目录可以让用户仅仅通过浏览的方式就可以集中地找到这一类信息。分类目录体系在按照类目检索信息时是非常有效的,其类目主要由人工编排,通常由几层到十几层,用户可以迅速找到相关站点。关键词检索提供了多种检索方式,是搜索引擎的基本组成部分,一个搜索引擎可以没有分类目录,但却极少没有关键词检索。用户进入某一个搜索引擎后,一般总是在比较显著的位置看到一个关键词检索框。用户只要在检索框内输入一个检索表达式,然后按下确认键,很快就会显示检索结果。检索表达式可以是一个词或几个词,甚至是一句普通的提问句。不同的搜索引擎对检索表达式的构成有不同规则,同一个检索表达式用于不同的搜索引擎,返回的检索结果也不尽相同。
(2)信息量大。搜索引擎并不局限于提供单一的网络信息资源的查找,在作为综合性百科性查询工具时,还针对特定类型的信息及用户群,提供特殊的查询工具。如重大新闻、投资信息、股票信息、体育娱乐信息等。
(3)检索方法多样。搜索引擎通常既支持分类检索,又支持主题检索;既提供满足一般用户要求的简单检索,又提供满足专业用户要求的高级检索。简单检索就是在关键词输入框中输入一个或几个关键词,然后提交给搜索引擎。简单检索结果往往不够精确,因为使用一些出现频率较高的词,反馈的结果很多,用户难于取舍;如果选择的词很生僻,则反馈结果可能都不是用户所需要的。因为一个或几个单词很难完整表达用户的检索要求。因此一般搜索引擎在提供布尔逻辑检索的基础上,还提供截词检索、字符串检索、字段检索、位置检索、自然语言检索、概念检索等,有的甚至能从字段、范围、时间、语言、信息类型、网站等方面进行必要的限定。此外搜索引擎一般都能保留检索式并能对其进行修改,实现二次检索。搜索引擎还可以提供一些新方法来对用户的检索要求进行逻辑条件限制和特殊操作符限制,力争提高检索结果的正确率。这些方法通常被称为高级检索,也就是常见的复杂检索。不同的搜索引擎所提供的高级检索有很多相似之处,只是有些搜索引擎整体水平较高,具备许多复杂功能,如逻辑检索和使用特殊操作符等。
(4)检索结果形式多样。搜索引擎可以根据用户的不同需要,让用户选择不同的显示格式、详简程度和结果排序标准,如按相关度、URL、域名、字母等排序,也可以直接显示结果,删除重复的链接。如有些搜索引擎是按搜索结果和用户输入的关键词的关联程度来排列的,关键词出现越多的结果排得越靠前,在相关度排序的同时,越知名的站点排得越靠前。
(5)重视易用性。为了充分提高访问量,搜索引擎网站都以易用性作为自己的建设目标。因为如果引擎搜索办法过于复杂,使用不方便,就丧失了引擎在效率上优势,检索效率不高,也就谈不上使用率。为方便更多人使用搜索引擎,搜索引擎一般都针对不同用户群的知识结构和需求提供相关的搜索功能,在提高搜索引擎的智能化程度的同时使之更加简便易用,使搜索引擎在学科领域知识和语言知识方面可给用户充分的支持,使用户的认知负担降到最低程度。比如有些搜索引擎已体现出很强的智能检索的功能,用户不需要记忆任何符号,按照书写习惯输入查询请求,就可得到检索结果。
(6)搜索的范围不同。综合性搜索引擎通常以全球的因特网资源为目标,而一些中、小型搜索引擎则致力于某一区域或某一领域的专业资料信息。综合性搜索引擎的范围虽然广 泛,但就某一区域或某一领域而言,不一定有中、小型搜索引擎信息收集的丰富和完备。虽然搜索引擎面对最多的是 WWW 资源,但有的搜索引擎只收集 WWW 资源,而有的搜索引擎除收集 WWW 资源外,还收集BBS、FTP、GOPHER、NEWGROUP等资源。
(7)搜索引擎使用的数据库容量不同。不同的搜索引擎,其数据库的容量相差很大,有的已达2.5亿个网页(ALTAYLSTA),而有的还不到百万个网页。
(8)用户界面友好。各种搜索引擎在保证功能齐全的基础上,都尽力保持用户界面的友好,避免花哨和过多的广告。
(9)搜索响应速度不同。搜索响应速度通常情况下不是由搜索引擎运行速度决定的,而是由网络传输的速度决定的,因此连接不同的网络直接影响到搜索的速度。
(10)更新周期不同。因特网上的信息资源始终处于不断变化发展之中,一个好的搜索引擎,除了内容丰富、查找迅速外,还应该对数据库中已有内容进行审核、更新,及时删除死链接、坏链接。
三、网络搜索引擎的分类
目前,INTERNET上已有数千个能提供检索服务的站点,这些站点的搜索引擎在收录的范围、内容、检索方法上都各有不同,采用的技术也各具特色。因此站在不同的视角,采用不同的划分标准,搜索引擎可以被分为多种不同的类型。按索引方法划分搜索引擎,可以分为分类目录型和主题索引型;按检索功能分,可以分为独立型和多元型;按检索内容分,可以分为专业型和综合型等。但总的来看,根据它们所基于的检索技术原理,—般可把它们分成3大类:主题索引/机器人(ROBOT)搜索引擎、分类目录式(DIRECTORSEARCHENGINE)搜索引擎和元搜索引擎(META-SEARCHENGINE)。下面对几种常用的搜索引擎类型进行介绍。
(一)主题索引型搜索引擎
主题索引型搜索引擎,也称机器人(ROBOT)搜索引擎,它的一个重要特征是通过网络搜索软件和ROBOT程序(ROBOT,即一个用C++、PERL、JAVA或其他语言编写的网页自动搜索程序,它可以运行在 UNIX、SOLARIS、WINDOWS、NT、OS/2和MAC等平台上),自动、定期搜集各种 WEB页面和信息,并存入搜索引擎数据库。其工作原理为:首先,由自动搜索软件ROBOT根据所给的网络地址(URL)自动对目的网页进行浏览,并将网页内容存储在搜索引擎的数据库中,同时,它还会根据网页的链接遍历 WWW中的其他站点,进一步提取其他网页,或转移到其他站点上,直到没有满足要求的新网页或网站为止。然后将获得的站点信息形成—个巨大的网页信息库以备用户查询。当用户通过查询内容提出检索要求时,系统就会在数据库中找到相关内容,并按照既定规则进行排序输出。
主题搜索引擎一般使用大型数据库来搜集和组织网络资源,大多都有搜集记录、索引记录、搜索索引和提交搜索结果等功能。有的主题索引搜索引擎也提供分类目录,但这是网页分类目录,而不是网站分类目录。主题索引型搜索引擎的主要特点是通过ROBOT自动寻找网络资源并编制索引摘要,减少了人工作业;信息量大,数据库规模大,资源收录多、全,结果更新及时,信息搜集速度快。但用户使用它查询网络信息时,往往检索结果多且复杂,搜索到的资源良莠不齐,查询结果准确度低,一般需要配合相应的语法规则和限制符号。目前,常用的主题索引型搜索引擎主要有GOOGLE、ALTAVISTA、EXCITE、FASTSEARCH、HOTBOT、GO(INFOSEEK)、LYCOS、NORTHERNLIGHT等,国内有天网、悠游等。
(二)分类目录型(DIRECTORSEARCHENGINE)搜索引擎
分类目录型搜索引擎,主要提供按类别编排的INTERNET网络站点目录,这个目录是一个可检索和查询的等级式,以超文本链接方式把不同资源类型划分到不同类别的目录中,各类目录下面引出属于这一类别的网站名称和网址链接以及每个网站的内容简介。每一大类下根据需要分设多级下位类目。它类似分类法的分类类目检索方式,适合用户进行某一主题范围内信息的族性检索。
它的工作原理:首先,系统雇用的大量编辑会进行广泛的网站或网页搜集。这些编辑在访问某个 WEB站点时,会对该站点作适当的描述,并根据站点的内容和性质将其归为一个预先分好的类别,再把站点的URL和描述放在该类别中,建立目录数据库。检索子系统,一般提供关键词搜索或按分类目录查找两种信息查询方式,用户在查询信息时,只需按分类目录逐层查找,搜索引擎就会将找到的相关网站名称、网址及内容简介显示在屏幕上,用户单击网站名称即可进入相应的网站。用户在进行信息查询时,只要遵循系统的分类体系按图索骥、层层深入即可,操作比较简单。另外,由于分类目录型搜索引擎一般由专业人员精心编制,依靠人工来评价描述网站,检索结果的信息相关度和精确度较高,因此用户从目录搜索所得到结果的查准率一般比较高,参考价值也比较高。
但是随着互联网网站和信息爆炸式的增长,人工标引速度慢,费时费力,成本高等不足也在目录搜索中显露出来,使得目录式搜索引擎采集信息的速度跟不上网络信息资源的增长速度,表现出搜索范围较小,查全率较低的缺点,对偏僻主题、新兴学科、交叉学科不能很好地涵盖,类目间的交叉还会导致重复和资源浪费。这些问题都在一定程度上影响了目录搜索查询结果的时效性。
常用的分类目录型搜索引擎主要有YAHOO、DIRECTHIT、BRITANNICA、OPEN DIRECTORYPROJECT(DMOZ),国内的搜狐、新浪、网易搜索也都属于这一类。
目录搜索引擎与ROBOT搜索引擎最主要的区别在于目录搜索引擎是通过人工方式进行资源搜集,而ROBOT搜索引擎采用的是“机器人”程序进行资源的搜集。
(三)元搜索引擎
元搜索引擎(META-ENGINE)又称为多元型搜索引擎,是一种建立在多个独立搜索引擎基础上调用这些独立搜索引擎功能的一种集成搜索引擎,也称“搜索引擎之母(THE MOTHEROFSEARCHENGINE)”。元搜索引擎的实质是对多个独立搜索引擎的整合、调用、控制和优化利用。相对元搜索引擎,可被利用的独立搜索引擎称为“源搜索引擎”(SOURCEENGINE)或“搜索资源”(SEARCH RESOURCES),调用、控制和优化利用元搜索引擎的技术称为“元搜索技术”(META-SEARCHINGTECHNIQUE),元搜索技术是元搜索引擎的核心。
元搜索引擎一般没有自己的网页索引数据库。它通过将用户的检索命令转发给各独立的搜索引擎,待它们完成查询任务并反馈结果后,再由元搜索引擎自己处理后提供用户使用。元搜索引擎的工作方式分串行处理和并行处理,串行处理准确性高,但速度慢;并行处理速度快,但内容重复多。
元搜索引擎为各搜索引擎提供了一个统一的检索界面,它由用户提问处理、检索机制督导、结果加工处理和结果页面制定四部分组成。检索时,用户递交检索请求,元搜索引擎将请求根据不同搜索引擎转化为可进行查询的表达式,调用元搜索引擎进行搜索,各独立的搜索引擎进行独立查询,并将查询的记录提交,元搜索引擎对查询结果进行汇集、筛选、删并等优化处理后,以统一的格式在同一界面集中显示。元搜索引擎虽没有网页搜寻机制,也没有独立的索引数据库,但在检索请求提交、检索代理和检索结果显示等方面,均有自己研发的特色元搜索技术支持。如提交检索请求时,根据元搜索引擎的特点和技术参数,指定优先顺序,并对检索时间、检索结果数量进行控制;作为若干元搜索引擎的检索接口代理,元搜索引擎必须具有较强的字符和语法转换功能,使用户的检索请求能够被具有不同语法特点的不同的独立搜索引擎所认知和接受;而对检索结果的显示,不同的元搜索引擎有不同的处理技术;对元搜索引擎设定的检索结果排序依据、最大返回结果数量、相关度参数及优化机制等也是不同的。
与独立的搜索引擎相比,元搜索引擎的优点是:
(1)它能够同时检索几个搜索引擎,扩大了检索范围,提高了检全率。
(2)它为多个搜索引擎提供统一的检索界面,方便用户,节省用户检索时间和费用。
但是它仍存在许多局限性,如检索速度慢,检索功能简单,只能进行基本的单词、短语和简单的布尔逻辑检索,复杂检索效果较差。尽管元搜索引擎存在着这样那样的功能局限,但它以涵盖较多的搜索资源,能够在尽可能短的时间内提供相对全面、准确的检索结果等诸多优异功能,受到用户的青睐,已逐渐成为—种不可或缺的极具潜力的网络检索工具。
著名的元搜索引擎有INFOSPACE、DOGPILE、VIVISIMO等。中文元搜索引擎中具代表性的有搜狐搜索、优客搜索。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如DOGPILE;有的则按自定的规则将结果重新排列组合,如VIVISIMO。
(四)其他搜索引擎
除了以上介绍的几种搜索引擎分类外,还有一些值得注意的搜索引擎。1.全文搜索引擎
全文搜索引擎(FULLTEXTSEARCHENGINE)是名副其实的搜索引擎,国外具代表性的有 GOOGLE、FAST/ALLTHE WEB、ALTAVISTA等,国内著名的有百度(BAIDU)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)建立起的数据库中检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此它们是真正的搜索引擎。从搜索结果来源的角度,全文搜索引擎又可细分为两种。一种是拥有自己的检索程序(INDEXER),俗称“蜘蛛”(SPIDER)程序或“机器人”(ROBOT)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的几家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如LYCOS引擎。
2.集合式搜索引擎
2002年底推出的搜索引擎 HOTBOT是这类搜索引擎的代表。该引擎类似元搜索引擎,但区别在于不是同时调用多个引擎进行搜索,而是由用户从提供的几个被选搜索引擎当中选择需要调用的独立搜索引擎,因此叫它“集合式”搜索引擎更确切些。
3.门户搜索引擎
如AOLSEARCH、MSN SEARCH等。虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他引擎。
4.免费链接列表(FREEFORALLLINKS,FFA)
这类网站一般只简单地滚动或排列链接条目,少部分有简单的分类目录,不过规模比起YAHOO等目录索引来要小得多。
当前人们还利用其他网络信息技术开发设计了不同功能和类型的网络搜索引擎。如信息过滤技术、网络信息挖掘技术、信息推送技术和中间件技术等。
信息过滤是根据用户的兴趣或偏好自动地搜集和用户兴趣相关的信息并推荐给用户的过程。用户的兴趣是相对稳定的,所以用户的信息需要也是相对稳定的,当有新的信息到达的时候,信息过滤系统需要判断是否推荐给用户。信息检索和信息过滤是两个很相近的概念,它们都是为了方便用户在使用海量信息资源时如何及时地找到需要的信息而提出来的,而且两者采用的主要技术都相同。但同时信息检索和信息过滤又是两个有区别的概念。两者的主要区别如表10-3所示。
信息过滤方法分为三类:认知过滤(COGNITIVEFILTERING),经济过滤(ECONOMICFILTERING)和社会过滤(SOCIALFILTERING)。其中,认知过滤也叫基于内容的过滤(CONTENT-BASEDFILTERING);社会过滤也叫合作过滤(COLLABORATIVE FILTERING),而当前使用的就是基于内容的过滤和合作过滤。基于内容的过滤就是根据信息的内容和用户偏好之间的相关性向用户推荐信息。它的主要应用有过滤广告、过滤垃圾邮件、过滤反动、色情网页等。合作过滤就是按用户兴趣把用户分组,同组用户具有相同或相近的兴趣。合作过滤根据人的判断为用户过滤信息。它使用多个用户的知识预测单个用户的偏好,把用户互相推荐信息的过程自动化,因此信息过滤技术在本质上就是一种信息检索技术,其目的就是通过利用某种检索模型和用户兴趣描述数据来减少检索结果的冗余度。
网络信息挖掘技术是数据挖掘技术在网络信息处理中的应用。数据挖掘是指从大型数据库的数据中提取出人们感兴趣的信息加以提炼,这些知识是隐含的、事先未知的、潜在的有用信息;网络信息挖掘是指在大量已知数据样本的基础上,得到数据对象间的内在特性,并以此为依据在网络中进行有目的的信息提取。进行网络信息挖掘的方法主要有:归纳学习、机器学习和统计分析等。网络信息挖掘系统主要由特征提取、信息采集和特征匹配三部分组成。其中特征提取负责进行挖掘目标的特征提取,信息采集负责从网络上选择下载原始文档,特征匹配负责进行相关信息的提取。
信息推送技术是一种按照用户指定的时间间隔或根据发生的事件把用户选定的可以获得的数据自动推送给用户的计算机数据发布技术。它的实现方式有:(1)频道式推送;(2)邮件式推送;(3)网页式推送;(4)专用式推送;(5)智能式推送。
与搜索引擎技术不同,在推送技术中,用户是被动地接受信息,所以用户不必掌握专门的技术,即可享用推送服务,这样降低了对用户的要求;另外,用户也无须花费大量时间进行查询,即可得到所需或感兴趣的信息。但是推送技术针对性差,不能很好满足用户的个性需求,而且它还加重了信源的负担,要求信源系统正确估计用户兴趣、爱好与需求,并主动地、快速地、不断地为用户推送信息。
中间件是指网络环境中系统节点上介于应用和操作系统以及网络服务之间的一系列分布式服务软件的集合。一般而言,中间件能提供如下服务:
(1)表示管理:包括图形管理、超媒体链接、打印管理等。
(2)计算:包括排序、数字运算、数据转换及时间服务等。
(3)信息管理:包括目录服务、日志管理、文件管理、记录管理及数据库管理等。
(4)通信:包括点对点通信、PRC(远程过程调用)、消息队列、电子邮件及电子数据交换等。
(5)控制:包括线程管理、事务管理、资源代理及请求调度等。
(6)系统管理:包括配置管理、错误检测、认证服务、审计服务、加密服务等,存取控制中间件的是一些系统软件,它们能使最终用户和开发人员觉察不到应用程序所使用的各种服务和资源上的差异。
综上所述,网络检索技术的进步将会对网络搜索引擎的发展起到巨大的推进作用,如使“蜘蛛”(SPIDERS)软件更趋于智能化,可以对网页上文献的相关性及其所含链接的质量作出更准确的判断,筛掉不相关的网页等。
四、网络搜索引擎的工作原理
搜索引擎并不真正搜索互联网,它实际上搜索的是预先整理好的网页索引数据库。真正意义上的搜索引擎通常指的是搜集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行标引,建立索引数据库的全文搜索引擎。
搜索引擎一般由搜索软件、索引软件和检索软件三部分组成。具体来说,搜索引擎的原理可以归纳为:从互联网上抓取网页———建立索引数据库———在索引数据库中搜索排序。
(一)从互联网上抓取网页
各个搜索引擎一般都利用高性能的“蜘蛛”程序(SPIDER)自动地定期或不定期地在互联网上搜索 WWW 站点,负责采集网页信息,主要包括 WWW超文本的所有文本、题名、摘要、关键词和URL等。一个典型的“网络蜘蛛”的工作方式,是查看一个页面并从中找到相关信息,然后再从该页面的所有链接出发,继续寻找相关的信息,依此类推,直至穷尽。搜索引擎的SPIDER一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几个月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库以反映出网页内容的更新情况,增加新的网页信息,去除死链或无效链接,并根据网页内容和链接关系的变化重新排序。这样,网页的具体内容和变化情况就会反映到用户查询的结果中。不同的搜索引擎在完成这些工作的迅速性和综合性方面是不同的。这是各搜索引擎的最初工作步骤。
(二)根据网页信息搜集结果建立索引数据库
这一过程关系到用户能否最迅速地找到最准确、最广泛的信息,能对“网络蜘蛛”抓取来的网页信息极快地建立索引,保证信息的及时性。不同的搜索引擎会在搜索结果的数量和质量上产生明显的差异。有的搜索引擎把网页搜索软件发向每一个站点,记录下每一页的所有文本内容;另—些搜索引擎则首先分析数据库中的地址,以判别哪些站点最受欢迎(一般都是通过测定该站点的链接数量),然后再用软件记录这些站点的信息。记录的信息包括从HTML标题到整个站点的所有文本内容,包括:网页标题、网址、链接、人名、地名、机构名等,以及经过算法处理后的摘要。当然,最重要的是数据库的内容必须经常更新、重建,以保持与信息世界的同步发展。
互联网虽然只有一个,但由于各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序算法也各不相同。大型搜索引擎的数据库存储了互联网上几亿至几十亿的网页索引,数据量达到几千GB甚至几万GB。但即使最大的搜索引擎建立超过20亿网页的索引数据库,所占也不到互联网上普通网页的30%,不同搜索引擎之间的网页数据重叠率一般在70%左右。使用不同搜索引擎的重要原因就是利用它们能分别搜索到不同的内容,最大限度地减少搜索空白。但互联网上有更大量的内容是搜索引擎无法抓取索引的,也是无法用搜索引擎搜索到的,这也是所有搜索引擎共同的遗憾。
(三)用户检索过程
搜索引擎索引数据库建立以后,每个搜索引擎都必须提供一个良好的信息查询界面,并具有帮助功能。用户只要把想要查找的关键词(KEYWORD)输入到查询框中,点击“搜索”按钮(或类似的按钮),检索器就会根据用户输入的查询关键词,在索引库中快速检出文档,因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。用户只要通过搜索引擎提供的链接,就可以访问到相关信息。这个过程是对前两个过程的检验,检验该搜索引擎是否给出最准确、最广泛的信息,检验该搜索引擎能否迅速地给出用户最想得到的信息。
五、常见网络搜索引擎的使用方法及特点
网络搜索引擎的出现,目的就是帮助广大的互联网用户方便地查询网上信息,同时也是寻求解决网络信息爆炸和用户对单一信息需求之间矛盾的一种做法。网络搜索引擎的功能正日渐强大,查全率和查准率也在大幅度提高,但归根结底,搜索引擎只是一个工具,用户要通过它搜寻到自己需要的信息,必须掌握其使用方法,否则就会出现当你输入关键词后,出现了成百上千个与之相关的查询结果,但是这些结果中并没有多少你想要的东西,或是没有完全满足你的初衷,放在你面前的只是一堆信息垃圾,因此,很好地驾驭搜索引擎,掌握它的使用技巧,是获得满足自己需要的网络信息资源的关键。
每个搜索引擎都有自己支持的查询方法,不同搜索引擎的查询方法不完全相同,一般来说,每一个网络搜索引擎站点都会有相应的版块设置来向用户介绍该搜索引擎的功能特点和使用方法,在使用搜索引擎前,仔细阅读这些提示和说明,能够让你在使用搜索引擎时事半功倍,收到良好的效果。
(一)网络搜索引擎基本搜索方法
以下是各个搜索引擎基本上都具有的通用查询方法。
1.简单搜索(SIMPLESEARCH)
指输入一个单词(关键词),提交搜索引擎检索后反馈结果。它也叫单词搜索。这是最基本的检索方法。
2.词组搜索(PHRASESEARCH)
指输入两个单词以上的词组(短语),提交搜索引擎检索并反馈结果。它也叫短语搜索。现有搜索引擎一般都约定把词组或短语放在引号“”内。如果查找的是一个词组或多个汉字,最好的办法就是将它们用双引号括起来,这样,得到的结果最精确。这就叫使用双引号进行精确查找。一般说来,在网页搜索引擎中,用词组搜索来缩小范围从而找到搜索结果是最好的办法。但是,运用词组搜索涉及如何选择一个词组来表达检索的问题。有时简单搜索就能奏效,有时则需要输入一个词组才能奏效,故选择合适的词组对提高搜索效率是很重要的。
3.高级搜索(ADVANCESEARCH)
指用布尔逻辑组配方式检索。它也叫定制搜索,常用的逻辑运算为AND(与)、OR(或)、NOT(非)。此外,还有NEAR(邻近)运算符。恰当应用AND(与)、OR(或)、NOT(非)及NEAR(邻近),可以使搜索结果非常精确。而且,可以用括号将搜索词组合起来,如表达式:“(大学NOT学校)AND四川AND(四川大学)”表示检索结果中包含有“大学”(而非“学校”)和“四川”以及“四川大学”的内容。
有的搜索引擎还支持使用通配符,用于指代一串字,不过每个搜索引擎所用的通配符不完全相同,大多数用*或?,少数用$。
此外,不少搜索引擎还支持加(+)、减(-)词操作,相当于逻辑与(AND)和逻辑非(NOT)。在搜索词前冠以加号“+”可以限定搜索结果中必须包含的词汇,用减号“-”则限定搜索结果不能包含的词汇。当只用一个单词进行搜索时,经常会出现数以千计甚至百万计的匹配网页,这时,就可以用“+”再加上一个单词,使搜索结果缩小范围;同样,如果用“-”去除一个单词,就能立即排除不需要的搜索结果。这一方法对主要搜索引擎都适用。
4.目录搜索(CATALOGSEARCH)
搜索引擎为用户提供分类目录,用户可根据此分类目录逐级检索。用户一般不需要输入检索词,而是按照检索系统所给的几种分类项目,选择类别进行搜索。这类搜索也被称为分类搜索(CLASSIFIEDSEARCH)。当然,也有人提出不应将网站分类目录也叫做搜索引擎,认为真正意义上的搜索引擎指的是全文搜索引擎。全文搜索引擎根据提问当场去网上检索,技术含量高、处理的信息量大、准确度高、功能强、检索速度也快。然而,全文搜索引擎其实也要有一个大的索引表,其中录了每个网页上出现过哪些关键词。当用户输入某个关键词搜索的时候,所有含有这个关键词的网页才能被找出来,并按一定顺序排列。这就与目录搜索依据的目录索引类似了。
5.语句搜索(SENTENCESEARCH)
这类搜索支持输入任意自然语言问句向搜索引擎提问,搜索引擎根据问句检索并反馈结果,就像人与人之间交谈一样,这种方式也叫任意检索,实际上就是自然语言检索。并非所有的搜索引擎都支持这样的检索,而且不同搜索引擎对语句中词与词之间的关系的处理方式也不同。
(二)使用搜索引擎需注意的问题
1.根据检索内容选择搜索引擎
因为搜索引擎的设计目的和发展走向存在着许多不同,有的专用于检索WEB信息,有的专用于检索USENET信息,而有的则针对商业需要设计。所以用不同的搜索引擎进行检索得到的结果常常有很大的差异,使用时,要根据自己的需要,选择合适的搜索引擎。
2.根据要求选择检索方法并细化检索
如果需要快速找到一些相关性比较大的信息,可以使用目录索引式搜索引擎检索;如果想得到某一方面比较系统的资源信息或比较冷门的信息,则应该选用全文搜索引擎查找。许多搜索引擎都提供了对搜索结果进行细化与再检索的功能。如有的搜索引擎在结果中有“检索类似网页”的按钮,还有一些则可以对得到的结果进行新一轮的检索,如:“在结果中搜索”。有时需要检索的信息太精确或者一个词组无法准确表达所需信息,那么,可以直接定位到信息源,就是用“…。COM”、“…。ORG”等作为要搜索的信息的主要词组,直接检索到相关网站或主页。
没有一种技术和搜索引擎是万能的,只有将几种技术和搜索引擎巧妙地结合起来使用才能大大提高检索效率。
(三)几种常用的网络搜索引擎介绍
1.百度(WWW。BAIDU。COM)
百度,全球最大的中文搜索引擎、最大的中文网站。1999年底,百度成立于美国硅谷,2000年1月,公司创始人李彦宏回国发展,在中关村成立了“百度网络技术(北京)有限公司”,同年5月首次为门户网站————硅谷动力提供搜索技术服务。2001年8月,发布BAIDU。COM搜索引擎BETA版,从后台服务转向独立提供搜索服务;2001年10月22日正式发布BAIDU搜索引擎。同年,百度适时推出了搜索引擎竞价排名这一全新的商业模式,吸引了各大中文门户网站、中国各地信息港以及百度提供技术支持的所有网站的积极参与。2007年12月,百度日本正式上线,百度开始了它的国际化战略。从最初的不足10人,发展到今天员工人数超过7000人,百度已成为中国掌握世界尖端科学核心技术的高科技企业,国内最大的商业化全文搜索引擎,目前全球最优秀的中文信息检索与传递技术供应商,为搜狐、新浪、163、TOM等站点提供网页搜索服务,成为中国最受欢迎、影响力最大的中文网站,目前百度有超过3万个搜索联盟会员,通过各种方式将百度搜索结合到自己的网站,使用户不必访问百度主页也能进行百度搜索。
百度搜索引擎由蜘蛛程序、监控程序、索引数据库和检索程序4部分组成,拥有目前世界上最大的中文信息库,总量达到9000万页以上,并且还在以每天几十万的速度快速增长。百度搜索引擎有新闻、网页、贴吧、知道、MP3、图片、视频等频道,提供网页快照、相关搜索词、拼音提示、错别字纠正提示、天气查询等特色网页搜索功能。功能完备,搜索精度高。中国所有提供搜索引擎的门户网站中,80%以上都由百度提供搜索引擎技术支持。百度目前主要提供中文(简/繁体)网页搜索服务。
百度搜索有以下特色功能:
(1)百度快照。如果无法打开某个搜索结果,或者打开速度特别慢,可以使用“百度快照”解决问题。每个未被禁止搜索的网页,在百度上都会自动生成临时缓存页面,称为“百度快照”。当您遇到网站服务器暂时故障或网络传输堵塞时,可以通过“快照”快速浏览页面文本内容。百度快照只会临时缓存网页的文本内容,所以那些图片、音乐等非文本信息,仍是存储于原网页。当原网页进行了修改、删除或者屏蔽后,百度搜索引擎会根据技术安排自动修改、删除或者屏蔽相应的网页快照。
比如下图是搜索“金庸”的一个结果摘要,点击右下角的“百度快照”链接。
(2)相关搜索。有时候搜索结果不佳,是因为选择的查询词不是很妥当,(3)拼音和错别字提示。如果只知道某个词的发音,却不知道怎么写,或者嫌某个词拼写输入太麻烦,这时只要输入查询词的汉语拼音,百度就能把最符合要求的对应汉字提示出来。它事实上是一个无比强大的拼音输入法。拼音提示显示在搜索结果上方。
如,输入“ZHURONGJI”,提示如下:您要找的是不是:朱镕基?
由于汉字输入法的局限性,我们在搜索时经常会输入一些错别字,导致搜索结果不佳。但百度会给出错别字纠正提示。错别字提示显示在搜索结果上方。
如,输入“唐醋排骨”,提示如下:您要找的是不是“糖醋排骨”?
(4)搜索框提示。百度会根据输入内容,在搜索框下方实时展示最符合的提示词。只需用鼠标点击想要的提示词,或者用键盘上下键选择想要的提示词并按回车,就会返回该词的查询结果。不必再费力地敲打键盘即可轻松地完成查询。
如果输入的是错别字,百度会提示正确的输入词。如,输入“周杰论”,搜索框提示中会显示“周杰伦”。
默认情况下,在百度主页和搜索结果页上方的搜索框都会显示搜索框提示。如果不希望显示搜索框提示,当然也可以根据自己的喜好来开启或是关闭它。
(5)专业文档搜索。很多有价值的资料,在互联网上并非是普通的网页,而是以 WORD、POWERPOINT、PDF等格式存在。百度支持对OFFICE文档(包括WORD、EXCEL、POWERPOINT)、ADOBEPDF文档、RTF文档进行全文搜索。要搜索这类文档很简单,在普通的查询词后面,加一个“FILETYPE:”对文档类型进行限定即可。“FILETYPE:”后可以跟以下文件格式:DOC、XLS、PPT、PDF、RTF、ALL。其中,ALL表示搜索所有这些文件类型。例如,查找张五常关于交易费用方面的经济学论文:“交易费用 张五常FILETYPE:DOC”,点击结另外百度还有英汉互译词典、计算器和度量衡转换、股票、列车时刻表和飞机航班查询、天气查询、货币换算等功能。
(6)支持高级搜索语法。
第一,把搜索范围限定在网页标题中。网页标题通常是对网页内容提纲挈领式的归纳。把查询内容范围限定在网页标题中有时能获得良好的效果。使用的方式是把查询内容中特别关键的部分用“INTITLE:”连起来。例如,找与林青霞有关的风景照片就可以这样查询:“风景照片INTITLE:林青霞”。注意,“INTITLE:”和后面的关键词之间不要有空格。
第二,把搜索范围限定在特定站点中。有时候,如果知道某个站点中有自己需要找的东西,就可以把搜索范围限定在这个站点中,提高查询效率。使用的方式是在查询内容的后面加上“SITE:域名”。例如,天空网下载软件不错,就可以这样查询:“SITE:SKYCN。COM”。注意,“SITE:”后面跟的站点域名不要带“HTTP:∥”,另外,“SITE:”和站点名之间不要带空格。
第三,把搜索范围限定在 URL链接中。网页 URL(统一资源定位器UNIFORM RESOURCELOCATOR的缩写,是发送到全球信息网文件的地址)中的某些信息常常有某种有价值的含义。如果对搜索结果做某种限定就可以获得良好的效果。实现的方式是用“INURL:”后跟需要在URL中出现的关键词,例如,找关于PHOTOSHOP的使用技巧可以这样查询:“PHOTOSHOPINURL:JIQIAO”,上面这个查询串中的“PHOTOSHOP”,可以出现在网页的任何位置,而“JIQIAO”则必须出现在网页URL中。注意,“INURL:”和后面所跟的关键词不要有空格。
第四,使用双引号和书名号精确匹配。如果输入的查询词很长,百度在经过分析后给出的搜索结果中的查询词可能是拆分的。如果对这种情况不满意,可以尝试让百度不拆分查询词。给查询词加上双引号,就可以达到这种效果。例如,搜索“上海科技大学”,如果不加双引号,搜索结果被拆分,可能会搜索出“上海”、“科技”、“大学”、“上海科技”、“科技大学”等词语,效果不是很好,但加上双引号后,搜索“上海科技大学”,获得的结果就全是符合要求的了。
书名号是百度独有的一个特殊查询语法。在其他搜索引擎中,书名号会被忽略,而在百度中,中文书名号是可被查询的。加上书名号的查询词,有两层特殊功能,一是书名号会出现在搜索结果中;二是被书名号扩起来的内容不会被拆分。比如,查电影“手机”,如果不加书名号,很多情况下出来的是用于通信的工具手机,而加上书名号后,结果就都是关于电影《手机》方面的了。
第五,要求搜索结果中不含特定查询词。如果用户发现搜索结果中,有某一类网页是不希望看见的,而且这些网页都包含特定的关键词,那么用减号语法就可以去除所有这些含有特定关键词的网页。例如,搜“神雕侠侣”,希望是关于武侠小说方面的内容,却发现很多关于电视剧方面的网页,那么就可以这样查询:“神雕侠侣 -电视剧”。注意,前一个关键词和减号之间必须有空格,否则,减号会被当成连字符处理,而失去减号语法功能。减号和后一个关键词之间,有无空格均可。
2.GOOGLE(WWW。GOOGLE。COM)
GOOGLE搜索引擎是1998年由两个斯坦福大学博士生LARRYPAGE和SERGEYBRIN发明的,1999年 GOOGLE公司创立,同年6月,GOOGLE通过自己的网站WWW。GOOGLE。COM推出,并很快为YAHOO、AOL、中国网易等其他目录索引和搜索引擎提供后台网页查询服务。GOOGLE的优势主要在于它掌握的庞大的信息量以及它的检索模型和检索速度,德国互联网杂志《今日在线》曾对搜索引擎的网站结构、搜索服务的准确性等进行测试,发现GOOGLE在这些方面都名列前茅。
GOOGLE以搜索精度高、速度快成为最受欢迎的索引型搜索引擎,是目前搜索界的领军人物。GOOGLE的使命就是要提供网上最好的检索服务,促进全球信息的交流和共享。GOOGLE开发出了世界上最大的搜索引擎,提供了最便捷的网上信息检索方法。通过对30多亿网页进行整理,GOOGLE可为世界各地的用户提供所需的搜索结果,而且搜索响应时间通常不到半秒。现在,GOOGLE每天提供的检索服务在2亿次以上。而且这一数字还在不断增长。GOOGLE数据库存有30亿个 WED文件,属于全文(FULLTEXT)搜索引擎。
GOOGLE提供的常规及高级搜索功能:
(1)在高级搜索中,用户可限制某一搜索必须包含或排除特定的关键词或短语,GOOGLE会忽略常用字词和字符,如“WHERE”和“HOW”以及其他会降低搜索速度的词,如果必须要使用某一常见字词才能获得需要的结果,可以执行词组搜索,就是说用引号将两个或更多字词括住;有时仅需要搜索包含某个完整词组的结果,在这种情况下,只需用引号将搜索字词括住即可,如“姚明”、歌词“长路漫漫”或其他名言如“人无远虑,必有近忧”等,用词组搜索非常有效。如果搜索的字词具有多种含义,例如,BASS可以指鲈鱼或乐器,您可以进行集中搜索,方法是在希望排除的含义相关字词前添加一个减号“-”,且减号前添加一个空格,例如,如果用户要查找鲈鱼而不是乐器,可以采用以下方法:“BASS-MUSIC”。
(2)该引擎允许用户定制搜索结果页面所含信息条目数量,可从10到100条任选;字母无大小写之分,默认全部为小写。
(3)GOOGLE提供网站内部查询和横向相关查询,还提供特别主题搜索,如APPLEMACINTOSH、BSD UNIX、LINUX和大学院校搜索等。
(4)GOOGLE允许以多种语言进行搜索,在操作界面中提供30余种语言供选择,包括英语、主要欧洲国家语言(含13种东欧语言)、日语、中文简繁体等。同时还可以在40多个国别专属引擎中进行选择。搜索规则是以关键词搜索时,返回结果中包含全部及部分关键词;以短语搜索时,默认以精确匹配方式进行;不支持单词多形态(WORDSTEMMING)和断词(WORDTRUNCATION)查询。
(5)搜索结果显示网页标题、链接地址(URL)及网页字节数,匹配的关键词以粗体显示;默认情况下,GOOGLE只返回包含所有搜索字词的网页。在字词之间无需添加“AND”。字词键入的顺序会影响搜索结果,要进一步限制搜索,只需加入更多字词,例如,要安排去夏威夷度假,只需键入“度假 夏威夷”,两个关键词中间有空格。
(6)GOOGLE将网页级别与完善的文本匹配技术结合在一起,可找到最重要、最有用的网页。作为组织管理工具,网页级别利用了互联网独特的民主特性及其巨大的链接结构。GOOGLE除了根据网页的得票数(即链接)纯数量评定其重要性之外,还要分析投票的网页质量。“重要”的网页所投出的票就会有更高的权重,并且有助于提高其他网页的“重要性”。也就是说,重要的、高质量的网页会获得较高的网页级别。GOOGLE在排列其搜索结果时,都会考虑每个网页的级别。GOOGLE所关注的不只是关键词在网页上出现的次数,它还对该网页的内容以及该网页所链接的内容进行全面检查,从而确定该网页是否满足检索要求。GOOGLE目录中收录的网址已达10亿个以上,这在同类搜索引擎中是首屈一指的。这些网站的内容涉猎广泛,无所不有。
(7)其他特色功能如“网页快照”(SNAPSHOT),即直接从数据库缓存(CACHE)中调出该页面的存档文件,而不实际链接到网页所在的网站(图像等多媒体元素仍需从目标网站下载),这方便了用户在预览网页内容后决定是否访问该网站,或者在网页被删除或暂时无法链接时,方便用户查看原网页的内容。此外,每日要点(天气、股票报价)、参考工具(计算器、单位换算)、选择关键字(同义词搜索、字典定义、拼写检查)、本地搜索(本地搜索、电影放映时间、房地产和住房)、旅行策划(货币换算、地图)、查询优化(加号(+)操作符、相关搜索、填空)、按数字搜索(邮编区号、手机号码)等特色功能为公众提供了多角度和全方位检索信息的方便。
(8)手气不错。在输入搜索字词后,可以尝试使用“手气不错”按钮,它可以将用户直接带到GOOGLE针对用户的查询所找到的相关性最高的网站。用户完全看不到搜索结果页,不过如果用户看到了,“手气不错”网站会列在最顶端。例如,如果查找斯坦福大学(STANFORDUNIVERSITY)主页,只需输入STANFORD并点击“手气不错”,而不必点击GOOGLE搜索按钮。GOOGLE会将用户直接带到WWW。STANFORD。EDU。
3.YAHOO(WWW。YAHOO。COM)
YAHOO是世界上最著名的目录索引,是搜索引擎的开山鼻祖之一。1994年,美国斯坦福大学电机工程系的两位博士生大卫·费罗(DAVIDFILO)和杨致远(JERRYYANG)开始编制一个自己感兴趣的INTERNET上的站点目录,这就是最原始的YAHOO。1995年,两位主要创建人成立了YAHOO公司,很快就将YAHOO变成了一个可定制的数据库,开发了可定制的软件,旨在帮助互联网用户有效地查找、识别和编辑互联网上存储的信息资源,尤其以其目录式分类查询闻名。同年NETSCAPENAVIGATOR直接引用YAHOO作为浏览器的搜索引擎。目前YAHOO是最流行的搜索引擎之一。YAHOO号称“搜索引擎之王”,也是目前最重要的搜索服务网站,在全部互联网搜索应用中所占份额高达36%左右。YAHOO拥有第一流的 WEB目录和最佳的新闻链接以及许多附加服务,因而,也有人将其专门独立为目录索引类搜索引擎(SEARCHINDEX/DIRECTORY)。YAHOO最早以人工分类和网址搜集见长,后斥资26亿美元收购了INKTO-MI、OVERTUNE(全球最大搜索广告商务提供商)、FAST、ALTAVISTA、KELKOO(欧洲第一大竞价网站)五家国际知名搜索服务商,用一年多时间打造出雅虎搜索技术(YST技术)。
除主站点(MOTHER YAHOO)外,YAHOO还设有美国都会城市分站点(YAHOOCITIES,如芝加哥分站)、国别分站点(如雅虎中国)和国际地区分站点(如YAHOOASIA)。YAHOO凭借其遍布全球的网站渠道,可以支持38种语言搜索,雅虎中国网站(WWW。YAHOO。COM。CN)是YAHOO公司为全球中文读者开发的网站,于1999年9月正式开通,是YAHOO在全球的第20个网站,支持全文检索和新闻检索,可以检索国标码简体字、大五码繁体字、图形中文等中文网页。2005年8月被阿里巴巴全资收购,现在的核心业务仍是搜索。
YAHOO属于目录索引类搜索引擎,可以通过两种方式在上面查找信息,一是通常的关键词搜索,二是按分类目录逐层查找。YAHOO现与GOOGLE合作,默认采用GOOGLE搜索引擎提供网页搜索。YAHOO主页中有检索选择及输入框,页面左边栏可选查HOTJOBS、MAPS、FINANCE、YELLOWPAGE等。输入检索词后点击SEARCH按钮可进行检索。主页下部是详尽的分类目录,供目录搜索用。
YAHOO的搜索技巧:下面以中国雅虎为例介绍雅虎搜索引擎的使用技巧。
(1)双引号带来的精确结果。当输入较长的查询词时,雅虎搜索引擎会依据查询词的字符串做拆字处理。若需要得到精确、不拆字的搜索结果,可在查询词前后加上双引号(中文双引号、英文双引号都可以)。例如:当输入四川大学考研时,系统会将查询词自动拆成“四川大学”、“考研”等字符串,如果输入“四川大学考研”,搜索结果将精确匹配为“四川大学考研”。当然,在精确匹配搜索的情况下,搜索结果数会比较少。
(2)巧用空格。如果使用某个查询词进行搜索无法找到准确的结果,不妨在查询词适当的位置加个空格,可以找到更精确的结果。例如:想查询四川地区所有大学的信息,如果搜索“四川大学”,就只能得到四川大学的结果,很难找到其他学校,这是因为“四川大学”这个词本身就是一所大学的名字。如果试着在中间加个空格,搜索“四川 大学”,就可以得到四川地区所有大学的信息了。虽然搜索引擎可以自动将不同的词语拆分后搜索,但是我们最好在不同词语之间输入空格,尤其是在查询词比较复杂时,这样得到的结果会更准确。
(3)减号的妙用。空格加减号,可以去掉无用信息。例如:搜索“联想-手机”,搜索结果就排除联想关于手机的信息。
(4)大小写处理。搜索引擎会把所有的字母当做小写处理。例如:搜索YAHOO和YAHOO得到的结果是一样的。
(5)高级搜索语法。高级搜索语法包含站内搜索(SITE)、页面标题搜索(TITLE)、网页搜索(LINK)、限定搜索结果的来源(SITE)和精确搜索URL。站内搜索(SITE)就是定位搜索,是查询某个网站上的相关信息,也就是对搜索结果的来源进行限定,如果只想查询某一个网站上的相关信息,可以使用SITE或者DOMAIN或者HOSTNAME命令来把搜索范围限定在这个网站中,提高查询效率。例如:搜索新浪的NBA频道,可以输入“NBASITE:SINA。COM。CN”。注意,查询词和SITE命令之间要用空格隔开;“SITE:”和网址名之间,不要加空格。
页面标题搜索(TITLE)就是用于针对页面标题进行搜索。例如:搜索“TITLE:张三”,搜索引擎会搜索到所有网页标题中包含“张三”的网页。由于网页的标题通常会准确地描述网页的内容,所以使用“TITLE:”进行搜索的效果可能更精确。注意:超文本窗口标题的开始和结束,被显示在浏览器顶端的标题栏中。
网页搜索(LINK)就是用于查找所有链接到某个网址的网页。例如:搜索“LINK:HTTP:∥WWW。YAHOO。COM。CN”,会搜索到所有链接到“WWW。YAHOO。COM。CN”的网页;搜索“姚明LINK:HTTP:∥WWW。YAHOO。COM。CN/”或者“LINK:HTTP:∥WWW。YAHOO。COM。CN/姚明”,会搜索到所有链接到“WWW。YAHOO。COM。CN”的网页中包含“姚明”一词的网页。注意:搜索时不能缺少“HTTP:∥”。
精确搜索URL就是用于精确搜索URL。例如搜索“URL:HTTP:∥CN。YAHOO。COM”,搜索引擎只会搜索到一个结果———雅虎中国。
4.搜狗(WWW。SOGOU。COM)
搜狗是搜狐公司于2004年推出的完全自主技术开发的全球首个第三代互动式中文搜索引擎,是一个具有独立域名的专业搜索网站。它用一种人工智能的新算法分析和理解用户可能的查询意图,给予多个主题的搜索提示,在人机交互的过程中引导用户快速准确定位自己所关注的内容,帮助用户快速找到相关搜索结果。
搜狗的检索规则:
(1)关键词检索。搜狗的页面由功能模块、检索输入框、检索按钮和实用工具四部分组成。进行简单的关键词检索只需在检索框中键入表达检索要求的关键词或检索式,执行检索即可。在检索框上方依次排列了九大功能模块,分别是新闻、网页、音乐、图片、视频、问答、地图、说吧、更多。用户可以根据需要选择相应的模块进行检索,如不进行选择,系统默认为网页检索。
(2)实用检索。搜狗首页上还列出了包括股票查询、天气预报、IP查询、手机号码等共15项实用功能检索类目,只需点击相应类目并输入检索内容,即可链接到与该内容有关的站点或网页,对检索日常实用信息非常方便。
(3)高级检索。搜狗的高级检索主要针对检索词和检索结果进行相应设定,如设定了是否拆分检索词、检索词位于何处、在指定站内搜索、检索结构的排序方式、指定检索文件格式和每页显示检索结构等。
5.新浪(WWW。SINA。COM)
新浪(SINA)是最大的中文门户网站,同样也推出了搜索引擎收费索引项目。
新浪自建独立的目录索引,共设15大类目录,10000多个子目,收录网站达20余万个,是规模最大的中文搜索引擎。它采用百度搜索引擎技术,提供网站、中文网页、英文网页、新闻、软件、游戏等查询项目,支持中文域名。新浪搜索页面搜索规则是:默认综合搜索,涉及网站、网页、新闻等内容。网站搜索仅限于自身目录中的注册网站。网页搜索时,调用百度搜索引擎进行查询。它具备相关搜索功能,如检索有“清华大学”的信息,会自动列出“北京大学”等其他院校的链接供查询。网站排名根据目录及网站信息与搜索条件的关联程度确定。
6.其他特色搜索引擎
(1)ASK(WWW。ASK。COM)。ASK原名ASKJEEVES,起初只是一个元搜索引擎,后以目录搜索为主,在2002年初收购TEOMA全文搜索引擎后,很快便成为以实现自然语言检索为特色的全文搜索引擎,并跻身著名搜索引擎之林,在国际互联网上赢得一席之地。
ASK首页中有检索选择及输入框,输入检索词后点击SEARCH按钮可查。ASK的搜索功能包括:支持简单搜索、支持词组搜索、支持高级搜索。其特色是支持自然语言搜索。ASK支持自然语言搜索的实现方式是支持自然语言提问,它的数据库里已经储存了1000多万个问题的答案,只要用英文输入一个问题,它就会给出问题的答案。如果问题答案不在它的数据库中,那么,它会列出一串与问题类似的问题和含有答案的链接供选择。
用自然语言具体检索ASK时,可以用特殊疑问句或一般疑问句提问。通常,用特殊疑问句提问效果较好。可以提的问题诸如:WHATISTHETIME?WHY SNOWISWHITE?WHEREISROME?WHEREISCHINA?WHOINVENTEDTHECOMPUTER?WHICHYEARWASTHEAIRPLANEINVENTED?WHATISTHEDATETODAY?等等。也就是说,当遇到一些属于事实型、原理型的问题时,使用是很方便的。
基于自然语言理解的检索技术一直是计算机信息检索中的一个引人入胜的、富有挑战性的课题,其目标是使广大用户能用自己熟悉的母语同计算机对话。自然语言理解系统可以用作专家系统、知识工程、情报检索、办公室自动化的自然语言人机接口,有很大的实用价值。ASK是真正实现自然语言检索的一个搜索引擎实例。
实际上,关于自然语言处理研究在电子计算机问世之初就开始了,并于20世纪50年代初开展了机器翻译试验。计算机对自然语言的理解一般是从实用的角度进行评判的:如果计算机实现了人机会话、或机器翻译、或自动文摘等语言信息处理功能,则认为计算机具备了自然语言理解的能力。目前在搜索引擎方面主要应用的自然语言理解技术是机器翻译与语义理解技术。应用了这些技术的搜索引擎被称为智能搜索引擎。由于智能搜索引擎将信息检索从目前基于关键词层面提高到基于知识(或概念)层面,对知识有一定的理解与处理能力,因而具有信息服务的智能化、人性化特征,这是未来搜索引擎技术或信息检索技术的重要发展方向。
(2)SCIRUS(WWW。SCIRUS。COM)。SCIRUS是目前互联网上最全面、综合性最强的科技文献门户网站之一,由ELSEVIER科学出版社开发。与其他搜索引擎最大的区别在于,SCIRUS既可以搜索网站(WEB),也可以搜索期刊资源,而且专注于科技方面的内容。
SCIRUS可检索免费资源和期刊资源。SCIRUS涵盖多个与科技相关的网站,包括9000万个网页,以及1700万个来自其他信息源的记录。SCIRUS覆盖的学科范围包括:农业与生物学、天文学、生物科学、化学与化工、计算机科学、地球与行星科学、经济、金融与管理科学、工程、能源与技术、环境科学、语言学、法学、生命科学、材料科学、数学、医学、神经系统科学、药理学、物理学、心理学、社会与行为科学、社会学等。SCIRUS的检索界面友好,简洁方便,分为基本检索和高级检索两种方式。
SCIRUS的基本检索非常简单,用户仅需输入检索词,按回车(ENTER)键或单击SEARCH按钮即可检索到相关资料。此外,用户还可以对检索结果加以限制,可来自于期刊、来自于网络或与输入检索词精确匹配。高级检索支持逻辑检索符“AND”、“OR”、“NOT”的应用,可以对检索结果进行诸多限制,如检索入口、匹配方式、出版时间、文献类型、文件格式、文献来源、学科范围等。