登陆注册
8362000000040

第40章 计算机信息检索原理及系统构成

一、计算机信息检索原理

人类的信息检索需求千差万别,获取信息的方法也各种各样,但信息检索的基本原理却是相同的。其本质的部分就是对信息集合和需求集合的匹配和选择。

匹配和选择是一种机制,它负责把需求集合与信息集合进行比较,寻找两者之间的相同或相似之处,然后根据一定的标准选出符合需要的信息。要想进行有效的匹配和选择,首先必须对大量的信息进行收集和加工处理,使之从无序到有序,并通过某种方法对这些信息的各类特征进行描述,让原来隐含的、不易识别的特征显性化,成为能被一般人所认识并理解的信息;另一方面,对用户提出的信息需求也要做类似的加工处理,即分析需求的内容,提取出主题概念和其他属性,并利用与信息集合相同的标识系统来表示需求中包含的概念和属性。

信息检索过程中要储存大量的数据,要对这些数据进行各种组合,有大量的排序和对比操作。为了提高信息处理的速度、准确性和可靠性,人们将计算机应用到信息检索中。计算机信息检索的本质与手工检索的本质没有区别,但信息的表示方式、存储结构和匹配方法变化了,即要用计算机可以识别的代码来表示信息,又要用便于计算机快速存取的方式存储信息。信息的匹配方法也由人工匹配变为机器匹配,匹配方式由隐式变为显式。在这种机器匹配过程中,原先在人工匹配中用于表达概念的语词符号变为没有内涵的字符串。因此计算机检索原理就是表示用户需求的字符串与计算机内存储的大量字符串(信息资料的集合)的比较和逻辑运算的过程。若二者一致或部分一致,并符合给定的逻辑运算条件,即为命中,然后将命中的信息输出给用户。

从上图可以看出,计算机一方面接受文献记录(即表示文献特征的各种款目及其标识),另一方面接受信息提问(即用户检索提问表达式),然后进行两者之间的匹配,以找出符合检索要求的文献。在计算机检索中,文献记录是以机读代码的形式存储在磁带上或存放在计算机磁盘上的,这样,计算机才能“阅读”和“理解”。磁带上或磁盘上机读记录的集合,叫做文档,或称为“数据库”。一条文献记录相当于手工检索工具的一条文献款目,即一张卡片目录。但是一条记录除了文献款目的内容外,还加上—些供计算机处理所必需的符号,如指示符、分隔符、字段或记录结束符等。记录中的数据单元又称为字段,相当于目录、文摘、题录中的基本著录项目,如书名、著者等项目。书目数据库是计算机检索的情报资源,除书目数据库外,还有事实型或数值型数据库、目录数据库、全文数据库等。

综上所述,计算机信息检索的原理可归纳为:将检索提问标识与系统中的存储文献的特征标识进行比较,进行字符串匹配和逻辑运算,并输出命中文献的过程。

二、计算机信息检索系统构成

(一)计算机信息检索系统的物理构成

1.硬件部分

它是系统采用的各种硬设备的总称,主要包括具有一定性能的主机、外围设备(包括外部存储器、输入输出设备等)以及与数据处理或数据传递有关的其他设备。主机要适应信息检索的需要,必须具有高速处理和超量存贮功能和分时多任务处理的功能。外围设备包括外部存储器、输入输出设备等。外部存储器应具有较大的存储容量。大型检索系统的外存容量一般都在数千兆字节以上。而且,还应具有多级存储系统,即调整缓冲存储器、主存储器、虚拟存储器、外部存储器,以便与中央处理机的速度相匹配,建立相对平衡的存储系统。输入输出设备包括各种必要的数据录入装置和输出装置,如键盘、光笔、鼠标器、光学字符识别装置、语音或图像输入装置、显示终端、打印机、绘图机、COM输出设备等。

2.软件部分

它是计算机检索系统中有关程序和各种文件资料的总称,包括系统软件和应用软件。系统软件一般包括操作系统、编译程序与汇编程序等。应用软件是根据具体工作需要而设计的数据库管理系统、词表管理程序、检索处理程序等。计算机软件是计算机检索系统所必需的技术。

3.数据库

要建立计算机检索系统,必须对所收集到的大量文献资料按一定的体系和规则加以处理,使之成为机读形式的数据。这种在计算机存储设备上按一定方式存储的相互关联的数据集合,就是数据库。数据库的本质是提供可以共享的有一定组织方式的相关数据。数据库是系统的核心组成部分,也是检索操作的直接使用对象。提供检索用的数据库存储在磁盘里。这些数据库一般是由数据库生产者提供、系统自建或与他人合建。一个计算机信息检索系统一般可提供数十到数百个数据库。在计算机信息检索系统中,多数数据库为关系型数据库。

按国际上通用的基本分类方法即根据数据库所含信息内容,数据库可以划分为参考数据库和源数据库。

(1)参考数据库(REFERENCEDATABASE)

参考数据库主要存储一系列描述性信息内容,指引用户到另一信息源以获得原文或其他细节的一类数据库。参考数据库主要包括书目数据库和指南数据库两种。

———书目数据库(BIBLIOGRAPHICDATABASE)是指存储描述如目录、题录、文摘等书目线索的数据库,又称二次文献数据库。

———指南数据库(DIRECTORYDATABASE)又称指示性数据库,是指存储关于某些机构、人物、出版物、项目、程序、活动等对象的简要描述的一类数据库。通过该类数据库可以查到公司、机构的地址、电话、产品目录、研究项目或名人简历等信息。

(2)源数据库(SOURCEDATABASE)

源数据库主要存储全文、数值、结构式等信息,是能直接提供原始资料或具体数据的自足性数据库,用户不必再查阅其他信息源。它的特点在于它本身含有一次情报,即用户作为检索目的而要求获取的数值、事实或文本。因此,源数据库可以包含数值数据库、文本-数值数据库、全文数据库、术语数据库和图像数据库等多类型数据库。

———数值数据库(NUMERICDATABASE)是一种专门提供以数值方式表示数据的源数据库。该类数据库提供了科学研究中试验、测量、计算、工程设计、经济分析和工业规划等方面的数据,也涉及社会科学中经济统计与预测、金融、商业及人口等方面的内容。与其他数据库比较,数值数据库是对信息进行深加工的产物,可以直接提供所需的数据信息。

———文本-数值数据库(TEXTUAL-NUMERICDATABASE)是一种能同时提供文本信息和数值数据的源数据库,如企业信息数据库、产品市场报告数据库、毒物数据库和物性数据库等。

———全文数据库(FULL-TEXTDATABASE)是一种存储原始信息全文或其中主要部分的源数据库,简称全文库。如法律法规全文数据库、期刊全文数据库、专利全文数据库、新闻消息全文库等。从信息源类型来看,它又属于文献数据库的范畴。目前全文数据库逐渐增加,如人民日报全文数据库和中国期刊全文数据库等。全文数据库虽然要占用很大的存储空间,但因它能使用户获得最终的一次文献,因此具有很大的发展前景。

———术语数据库(TERMINOLOGICALDATABASE)是一种专门存储名词术语信息、词语信息以及术语工作和语言规范工作成果的源数据库,俗称电子辞典。

———图像数据库(GRAPHICSDATABASE)是一种用来存储各种图像或图形信息及有关文字说明资料的一种源数据库,主要应用于建筑、设计、广告、产品目录、图片或照片等资料类型的计算机存储与检索。

另外,按其载体形式还可分为磁媒体数据库、光盘数据库、多媒体数据库等。

(二)计算机信息检索系统的逻辑构成

一个完整的信息检索系统通常必备以下六个功能模块:文献与数据选择与采集子系统、词表子系统、标引子系统、建库子系统、系统-用户接口子系统、提问处理子系统。

1.文献与数据选择与采集子系统

本功能模块的任务是根据系统的经营方针和服务对象的需要,以快速、经济的手段,广泛地、连续不断地采集各种数据,为系统提供充足而适用的数据源。

信息检索系统中的信息主要来自各种公开文献,如一次文献中的期刊、图书、研究报告、会议论文、专利文献、政府出版物、学位论文,二次文献中的文摘、索引和目录,三次文献中的百科全书、专科词典、辑录、指南、手册等。而这些情报源又可以以不同形式出现,如印刷型、机读磁带或软盘、光盘、缩微品或音像资料。在早些时候这项任务主要由系统工作人员承担,计算机只起辅助作用。采集的手段有订购、交换或利用行政手段搜集下属机构的数据,或利用已有的传统数据,如文摘索引、目录、手册、指南等。

随着通信技术与网络的发展,信息采集的内容与方法在很大程度上发生了很大的变化。从内容上看,采集的对象在原有的基础上有了扩展,增加了网络信息这一庞大的信息资源。从方法上看,检索系统也不再全部由工作人员完成,而是更多地借助计算机,通过编制一种机器人程序,自动地在各网页间搜集信息,以满足网络环境下信息采集的要求。

2.词表子系统

主题词表是控制标引用词和检索用词并使二者尽量取得一致的有效工具。词表子系统的主要功能是管理维护系统中已有的主题词表,使它与标引、建库等子系统相连接,支持用户的各种词汇查询操作,从提问、对话或其他文本中采集新的词汇信息,以及输出各种形式的词汇数据或词表产品(从个别词目、词间关系、词频数据到整部词表)。在信息检索系统中,此子系统既可独立存在,亦可以和建库子系统中的词典文档合并在一起。

3.标引子系统

标引,就是根据一定的规则和程序,对文献内容进行分析,然后赋予文献一定数量的内容标识(分类号、主题词、关键词等),作为存储与检索的依据。这是分析揭示文献主题特征,并使之显性化的过程,再录入计算机中。标引分为手工标引和自动标引。目前主题标引和分类仍靠手工完成,抽词标引可由计算机自动完成。通过标引,能将分散的资料彼此联系起来。标引子系统的功能决定数据库的标引深度和检索点,标引的一致性和实际的查全潜力,标引的贴切性和实际的查准潜力。

4.建库子系统

建库子系统的实质是将采集子系统所采集的无序信息进行有序化组织的过程。它的任务是对所采集的信息进行组织,建立并维护可直接用于计算机检索的数据库。主要功能包括数据评价与转换、数据录入、数据库的维护与更新。

数据评价与转换都是对信息进行规范化的过程。数据评价的目的是在数量庞大、种类繁杂的各种信息中,确保数据来源的可靠性、准确性和实用性。对于直接获得的数字信息还需要对其格式进行检测与统一标准化转换。

数据录入有手工录入与自动录入两种方式。手工录入在录入过程中应注意保持原始数据的完整性和准确性。自动录入主要用于对光盘数据库、磁带数据库等数字信息的套录或转录,以及通过扫描仪与OCR(光学字符识别)技术结合完成文献的数字化。

数据库的维护与更新是系统能够持久稳定运行的保证。维护主要指对数据库系统硬件设备的维修、保养和对系统软件功能的修改、扩充。更新主要指对数据库的内容进行添加或重新组织。

5.系统-用户接口子系统

系统-用户接口简称用户接口,是面向系统用户的一种“人—机”接口。它承担用户与系统之间的通信功能,是两者之间实现通信不可缺少的连接系统。系统-用户接口子系统通常由用户模型、信息显示、命令语言和反馈机制等部分构成。用户模型即是系统建立的用户认识模型;信息显示是指系统以屏幕显示形式提供给用户的各种信息,如菜单、窗口、帮助信息、错误信息等;命令语言是指系统提供给用户的检索命令集,包括基本命令(如检索开始、结束、选词、组配、显示、打印等)和扩充集(如截词、位置运算、限制检索、暂存检索策略、套录等);反馈机制,即系统对用户反馈的信息所作出的反应或操作。

此外,直接供用户输入信息的设备,如键盘、鼠标、触摸式显示屏和输出设备,也是用户接口的组成部分。依照这个子系统。检索系统可分为脱机检索系统和联机检索系统,指令驱动检索系统和菜单选择检索系统等。

6.提问处理子系统

该子系统负责处理用户输入的检索式或提问式,并将它们与数据库中存储的数据进行比较运算,也就是系统对检索式同文献记录进行比较而决定其取舍,然后把运算结果输出给用户的过程。该模块主要由检索程序构成,即根据用户的提问,从数据库中读入一批记录,与提问式进行比较,把满足要求的记录记入输出文档。信息检索系统中,计算机实际上是个高速的匹配器。这种匹配方式是对文档有顺序扫描和随机存取的方式。提问处理子系统实际上包括数据库在机器内文档的结构、信息检索软件。执行检索程序过程包括:接收提问—分析需求—提问校验—语法用词检查—提问加工—解释转换—提问检索—匹配选择—结果输出。

同类推荐
  • FBI身体语言密码(插图版)

    FBI身体语言密码(插图版)

    很多时候,我们之所以在人际交往中产生误会和 摩擦,是因为我们没有读懂对方的真实想法。而观察 和分析一个人的身体语言,则是读懂人心的利器,当 我们能够通过一个人的身体语言读懂他内心所想时, 我们与人的交流一定能够*加顺畅。《FBI身体语言 密码(插图版)》教你美国FBI超强的识人术,让你能 够**时间探知他人的内心世界。表露人真实想法的往往并非人嘴里说出来的话, 而是身体语言。一个手势,一种坐姿,一个眼神,一种声音,并 非偶然,都是内心的外在呈现。
  • 窗边的孩子

    窗边的孩子

    本书的目的是发现家庭环境因素对北京市初中生电子游戏使用问题(成瘾和偏爱暴力游戏)的影响过程和方式,从而使家长、学校和社会管理部门能够更有效地预防初中生和其他年龄段的孩子出现电子游戏使用问题,并对预防其它心理和行为问题有重要的借鉴意义。该论文运用传播学中的“使用与满足”理论作为分析框架,并提出了家庭环境对电子游戏使用问题影响的“下旋螺旋模式”,有一定的理论价值。
  • 社会管理模式创新的法理与实证研究

    社会管理模式创新的法理与实证研究

    本书以宜昌市社会管理机制中的网格化管理等机制为例,通过大量的实证数据来分析政府职能转移的法律规制问题、网格化管理中的网格员队伍建设问题、以及宜昌市探索的农民用水户协会等非政府组织运行机制和宜昌特殊的三峡移民管理机制创新等理论与实践问题。
  • 福利分化:比较社会政策批判导论

    福利分化:比较社会政策批判导论

    本书是一本比较性的专著。它探讨了四个发达资本主义国家:瑞典、德国、英国和美国。从社会等级、种族和性别等视角探讨社会政策,本书表明了在这些区分当中福利衡量显示出了重要性。作者描绘了四个国家的福利政策,分析了各自的利弊,指出了每个国家面临的五大问题。本书浅显易懂,主要阅读对象为大中专院校的学生、教师,是一本非常好的了解西方发达国家福利制度的专著。
  • 百日危机

    百日危机

    《百日危机》是第一部反映SARS病毒入侵人类的中国灾难文学的力作,因具有“备忘录”和“启示录”的双重意义而格外受到关注。作者不是为了简单地宣传铁腕治非典的官员、抗击SARS一线的医护人员、为找到对付病毒而呕心沥血的科学家以及为公众讲述抗击SARS一线真相的新闻记者,而是把他们还原成具有职业守精神的普通人,力图传达的是危机中人性的美丑以及更深层的生存境况,用文字做成警钟,提醒人们“悲剧常常重演”的危险存在。
热门推荐
  • 带弯军二代

    带弯军二代

    内心霸道外表柔弱清纯的齐唐在大学第一天就看上了一个长相惊艳的小男生,结果室友告诉她那是个女的!我去,所以她是对着一个同性发呆傻笑了一节课?一直走中性路线的军二代,方佟笑嘻嘻的摸着齐唐的脑袋,”有事找我的话就找她,她可以代表我。“
  • 秦扫六合

    秦扫六合

    他拥有富可敌国的财富,他拥有至高无上的权位。他野心勃勃想统治世界,掌管天下人生死。他贪心妄想得永生,做千古一帝。他就是嬴政!
  • 他真的很想你

    他真的很想你

    时间是个奇怪的东西,它能让你忘了一切,也能让你在一瞬间记起一切,当莫唯一看着走向自己的林言之,正脑补着各种浪漫戏码时,却忘了当时的当时自己可是强吻了这个校草,而且是当着全校师生的面,虽然自己一直暗恋着他,但事件男主一直可是冷漠脸,所以当莫唯一反应过来时,第一个动作就是跑,速度堪比光速,而林言之当时只觉得身边有一阵风飘过。这就是阔别多年两人的第一次见面,对莫唯一而言,不是惊喜,而是惊吓。而对林言之来说,他根本不知道发生了什么。
  • Boy Scouts in Mexico

    Boy Scouts in Mexico

    本书为公版书,为不受著作权法限制的作家、艺术家及其它人士发布的作品,供广大读者阅读交流。
  • 浮生夜游记

    浮生夜游记

    常世如梦,举世皆空。人生于世如暗夜行游,前路已是茫然莫辨,更有环伺于周的危机不刻而至,一朝行差踏错便万劫无尽。所能倚仗者,唯有心头一丝明焰,持之而行,神鬼辟易。一手红莲业火,斩邪;一手净世清焰,诛恶。身驻于方寸之地,魂游常世幻梦之间,及至目中再无一人,不由迫问苍穹。这方天地,到底是谁在做梦?
  • 带着孩子去相亲

    带着孩子去相亲

    背叛、欺骗、陷害。一次又一次的袭击着与世无争的她,她会选择绝地反击吗?五年的学生生涯,五年的出国进修,当一向默默无闻的她以高调的身份再度出现到众人的面前时,又将是怎样的一番光景?孰悲,孰欢?这样的十年,究竟是谁错过了谁,谁伤害了谁?
  • 魔导圣灵

    魔导圣灵

    一场蓄谋已久的相遇,一个被深深算计的单纯无灵少年,一个来自异界的灵之少女,两人究竟是命运的交响曲,还是人为的咏叹调,在魔导大陆上,名字另有深意。
  • 陆小凤传奇系列(四)

    陆小凤传奇系列(四)

    陆小凤,一个有着四条眉毛(其实只是嘴上多了两撇胡须)的人。喜欢喝酒,欣赏美女。更重要的是他重情义,但风流成性,半生桃花不断。表面上对什么事都漫不经心。但却十分在意。他总能遇到十分稀奇的事,也总能逢凶化吉。
  • 雄霸之巅

    雄霸之巅

    五行体质!魔神之命!两大禁忌!天下难容!许我逆改苍天命!
  • 77号棺材铺

    77号棺材铺

    荆垢在一个无比奇异的家庭里…………“饺子!!快拿水来!!锅要炸了!!”洗菜某饺子“什么!!梼杌饕餮快拿水!第15个锅了啊!!”“饺子!饕餮他疯了!!墙和水管都被他吃了!!”“饺子这东西真的要炸了!!”…………………荆垢看着煮个饭都能把房子拆了的家人:(ー_ー)盘古大爷,你为什么要放他们出来……