登陆注册
9671800000070

第70章 科普搜索的研究与实现(1)

吴晨生 刘彦君 张鲁冀 董晓晴

(北京市科学技术情报所,北京,100876)

摘要:本文综合应用主题搜索技术和深网信息集成技术,设计并实现了一个基于科普领域的主题深度搜索引擎。文中介绍了系统的体系结构、主题信息采集策略以及所使用的关键技术,并通过实验验证了网页分类器的高准确性,最后设计实验验证系统搜索效果并对相关工作进行了比较分析。

关键词:深网主题搜索引擎主题分类机器人网页分类器

一、引言

目前,针对某一领域的主题搜索引擎的研究已成为研究热点之一,超过50%的深网内容是特定于某个领域的,即面向某个领域,针对基于领域的深网信息集成技术的研究也成为当今信息检索领域研究的一个热点。本文所描述的科普深度搜索引擎正是上述两种技术结合于科普领域的产物。

二、系统结构

本文在传统的主题搜索引擎体系结构的基础上,加入了深网信息集成方案,研究并利用科普领域知识的特征,设计出科普深度搜索引擎的结构。

现对主要部分做简要说明:

(1)主题分类机器人:完成从web中采集科普领域信息并入库的工作;

(2)深网信息集成:协调调用相应机器人完成对指定深网网站的实时检索功能并将合并结果返回;

(3)索引器:完成对库中科普领域数据创建索引文件的工作;

(4)查询器:根据用户输入的查询条件查询索引文件并返回查询结果;

(5)用户接口:为用户提供综合的查询接口。

三、主题信息采集策略

本文研究分析了科普领域信息的特征,并根据这些特征,有针对性地设计主题信息采集策略。

1.科普领域信息特征分析

通过研究观察发现,科普领域信息在网络分布上和覆盖范围上有以下特征:

(1)网络分布上:科普领域信息多以块状分布于整个web中,其中每一个块多以独立的网站形式存在,少数块存在于大型网站的二级结构中,更少数的科普信息散落地存在于网络中。

(2)覆盖范围上:相较于其他主题信息如林业、农业以及医学等,科普领域信息覆盖范围较大,如天文、地理、生物、历史考古、IT等均属于科普领域。

针对上述特征分析,得出如下分析结果:

①科普领域信息的块状分布有利于我们对大部分信息的集中采集,目标是找到尽可能多的块,放弃少数散落的科普信息,这是对科普信息高效采集的一种考虑。

②基于领域的深网信息集成技术是科普领域信息搜索的可行思路。

③由于科普领域覆盖范围较宽,我们将科普主题进行了分解,将其分为天文主题、地理主题、生物主题、考古主题以及综合主题,分别提取各子类主题特征,综合所有细分主题的特征作为科普主题判断依据。

2.数据采集策略设计

根据上述分析,我们设计出两种科普数据采集方案:人工干预策略与先采集后过滤策略相结合的主题爬虫采集策略;科普领域深网信息集成方案。

(1)主题爬虫采集策略能够高效完成对大量科普领域信息的采集。策略描述如下:

①收集科普主题网站作为主题机器人爬行的种子urls并入库保存;

②机器人从库中读取一个url;

③机器人以读取到的url为起始链接,以宽度优先策略进行遍历;

遍历过程遵循规则:若待爬url为种子url域名内链接,则直接抓取此页面;否则,用网页分类器对此url页面进行分类过滤,若属于科普领域页面则抓取,否则放弃此url。

④循环上述②、③步骤。

(2)科普领域深网信息集成方案描述:首先,有针对性地选择查询效果好的科普网站,分别制作表单查询机器人;其次,设计调度机制。根据用户选择调用相应的表单查询机器人,由其填写表单进行实时深网信息采集。

四、关键技术

科普深度搜素引擎所使用的关键技术有主题爬虫技术、深网信息集成技术以及基于Lucene的索引机制,下面对这些技术进行详细分析。

1.主题分类机器人

科普深度搜索引擎的主题分类机器人通过站内网页判断和科普网页分类两种方式对网络信息进行过滤抓取,有较高的分类准确率和采集效率。

(1)机器人架构

机器人的制作基于工作流/组件技术的网页信息抽取系统VWIE来完成。利用VWIE的组件可扩展性,我们为其添加了分类器组件以及域名判断组件,用以实现具有页面过滤和站内页面判断功能的主题分类机器人的制作。

(2)分类器核心算法

SVM分类算法是目前分类效果非常好的一种文本分类算法,故本文系统分类器采用SVM分类算法。支持向量机理论(SVM)最初来源于数据分类问题的处理,简单地说,SVM就是要寻找一个满足要求的分割平面,使训练集中的点距离该平面尽可能地远,即寻求一个分割平面使其两侧的margin尽可能最大。一般分为线性可分和线性不可分两种情况讨论:

给定一组训练样本集(x1,y1),(x2,y2),…,(xi,yi),其中xi∈RN为N维向量,yi∈{-1,1}。

(3)分类器准确率实验

①分类训练样本设置

训练样本分为科普和非科普两类,我们对这两类进行了细分,尽可能多地将其划分为小类。

②实验结果

我们人工从目录网站及Google上共搜集到349个科普网站,随机从中选择50篇网页作为科普类网页,从新浪博客中人工选取50篇网页作为非科普类网页作实验数据。

实验结果表明:SVM分类器用于科普主题分类有较高的准确性。

2.深网信息集成

根据用户的选择协调调用相应机器人、机器人对用户选择的深网网站进行实时检索,最后合并机器人查询结果返回给用户接口。

(1)技术基础

系统深网信息集成的技术基础是基于网页结构分析的表单填写技术。

(2)集成框架

3.基于Lucene的检索机制

系统信息检索部分使用Lucene实现索引器和查询器功能,但Lucene中文分词并不十分理想,因此利用Lucene的可扩展性我们使用现在较为流行的开源中文分词庖丁解牛技术代替原有的分词。替换后效果明显,很大程度上优化了索引质量和查询效果。

索引器主要完成将切词形成的顺排档文档组织成倒排档索引数据。索引的建立即索引器的实现,主要分两步:首先构造一个Document的文档对象doc,其中包括描述数据域和正文数据域,这是因为只有符合Lucene.Document要求的文档才能使用Lucene对其建立索引。

同类推荐
  • 数字博物馆研究与实践2009

    数字博物馆研究与实践2009

    本书汇集了“2009年北京数字博物馆研讨会”与会代表提交的60余篇论文和演讲报告、应用案例,分为数字博物馆(科技馆)发展研究探讨、数字博物馆(科技馆)多样性发展模式、数字技术在博物馆(科技馆)展陈中的应用、数字博物馆(科技馆)建设实践、数字博物馆(科技馆)实现技术和数字博物馆调研报告等六个部分。本书内容囊括了对数字博物馆(科技馆)建设宏观层面的全局思考以及微观层面的具体实践。在宏观层面,介绍了数字博物馆(科技馆)在国内外的发展现状与趋势,通过剖析典型案例,探讨数字博物馆(科技馆)建设的意义、目标、作用、建设原则、要素、特征及目前建设工作中存在的现实问题与对策。
  • 中国网络传播研究2009(第三辑)

    中国网络传播研究2009(第三辑)

    本文以传统社区研究的“场域论”为基础,探讨网络传播中场域性互动对社会舆论的影响。文章首先从传统社区传播的场域性特征出发,探讨网络传播的社区性和场域性。然后分别分析了传统门户、BBS论坛和私人博客等三种主流的网络传播的场域性互动、意见表达和舆论形成的特点。最后结合“张殊凡事件”、“王石捐款”事件以及“黑砖窑”事件,探讨网络传播中的场域性互动对社会舆论从虚拟到现实的影响。
  • 悟道:一位IT高管20年的职场心经

    悟道:一位IT高管20年的职场心经

    本书是一位有20多年职场经验的IT企业高管撰写的一系列有关职场悟道的短文集成,讲述的是在企业里如何修炼自己,如何摆平自己的心态,怎样做到“世事洞明”和“人情练达”,如何“搞定老板”,怎样做到工作和生活平衡等诸多话题,涉及到跳槽、转行、升迁、环境、沟通、老板、下属、老外等等。每一篇都以作者的亲身经历或者身边的故事说明道理,语言简洁流畅,妙趣横生,更有不少经典片段和发人深省的职场警句,读起来就像是一个睿智幽默的老朋友坐在你面前娓娓道来。
  • 网络知识

    网络知识

    一般地说,将分散的多台计算机、终端和外部设备用通信线路互联起来,彼此间实现互相通信,并且计算机的硬件、软件和数据资源大家都可以共同使用,实现资源共享的整个系统就是计算机网络。
  • 学校计算机实用技术

    学校计算机实用技术

    本书由杭州市上城区教育学院编著,他们邀请了众多信息技术教育教学的一线专家,认真细致地筛选了学校计算机应用方面的常见问题,提出了解决问题的具体操作方案,旨在帮助一线教育工作者解决可能面临的种种问题,为广大教师提供便捷服务。
热门推荐
  • 般若灯论释

    般若灯论释

    本书为公版书,为不受著作权法限制的作家、艺术家及其它人士发布的作品,供广大读者阅读交流。
  • 蜜恋甜妻:扑倒绝色男神

    蜜恋甜妻:扑倒绝色男神

    墨小妖去面试,却遇上了过于风姿绰约的面试官,她一个激动,鼻血长流外加不雅晕倒!一觉醒来,男神还在眼前!墨小妖趁机理直气壮的告白:“是你救了我啊,那你就是我的救命恩人了!鄙人此生无能故无以为报,唯有以身相许才能表达我对你的感激之情,望您能给我报恩的机会。”然而男神太傲娇,想要转移话题!哈!当她墨小妖是善男信女啊!且看她怎样花样搞定男神!【情节虚构,请勿模仿】
  • 位面维护中心

    位面维护中心

    在英格兰养成亚瑟王,在罗马被暴君调教……服役室友都是大能,我却只跟他们学了混吃等死……我名字奇怪不是我的错,而是这名字有个大局!宣誓于世界,维护于位面!在下百人山,隶属位面维护中心人类位面维护科戴罪服役临时工,每日目标为混吃等死顺便拯救世界还有,我真的不想去打卡卡罗特,升职也不去!(企鹅群:384294647)
  • 妖怪世纪

    妖怪世纪

    本是普普通通的一个少年,却在无意中接触了一个老头,而穿越到了玄幻世界,这注定了少年这不平凡的一生!而这次穿越究竟是人为,还是真的说是意外?????
  • 报君以琼玖

    报君以琼玖

    君赠我瑶佩,报之以琼玖。男主篇:如果没有步步为营的权术谋略,即墨不会这么痛苦。可是若非如此,怎能护得她,一世安宁?女主篇:即便天下人皆待我以炎凉,我亦不惧,只愿君心似我心,定不负相思意!某日,玖宁指着某物说:“这只小狐狸洁白无瑕,玉雪可爱,与厚颜无耻的公子您在一起,甚为不和谐啊!”即墨:“其实吧......这是只,狼狗。”小虐怡情,大虐伤心。本文轻松,男女主从一而终。
  • 魔元界

    魔元界

    魔元之界,风雷水火,一切尽在掌控。烈火焚天,寒冰冻地,斗转无尽苍穹。如幻世界,如画红颜,等君英姿雄霸。不甘渺小,不甘无名,誓要横剑天下。魔元界之旅,要你来,扬眉拔剑,创造一个世界,笑傲一个天下。
  • 世袭驻颜师

    世袭驻颜师

    妲己、西施、陈圆圆等一众史上美女,她们的绝世容颜竟然是由世袭驻颜师一手“打造”而成。这些世袭驻颜师不需要打针吃药开刀做手术,只要一双手轻轻地抚摸,就可以让一个人容貌永保青春。现在,这个拥有神奇驻颜术的高富帅苍洛降临都市,偶遇娱乐圈灰姑娘,和她坠入奇妙的恋爱之旅,这违背了世袭驻颜师守则,他会怎么选择?而围绕着他那双神奇的双手,爱情,权谋,利益,争夺,伤害,谅解,一一登场....最终结局如何,连我也不得而知,在码字的路上,请你们和我一起等待揭开谜底的时刻!
  • 错爱枕边人

    错爱枕边人

    她是卑微如草的孤女,为生计沦为欢场女孩。他是令人闻风丧胆的兵王,脱下戎装成为跨国集团继承人。两难之间,他不知自己一开始就步入了一个设下的局,而她正是那枚射向他的银色子弹。究竟是谁将他们的命运相连?爱情和秘密将他们重重包围,当真相一步步揭开之时,那些情深意浓,终究不过是一场幻梦。
  • 都市修真鸟人

    都市修真鸟人

    现在地球上有很多修仙者,他们肉身修炼武道,精魂修炼神道,只是普通人没有察觉。魏高得到肉身飞行的能力,引来无数修仙者掠夺。老实说,魏高很感动,不要命的追杀,太佩服他们了。面对追杀,魏高有冲上云霄的刺激,更有以刀问杀的冲动!每天12点和19点更新,不定时加更。(求收藏、推荐,各种数据!)
  • 《酒居录》

    《酒居录》

    我叫罗燊,是一个背包客,游历西方,将所见所闻所感记叙,汇集成酒居录,无他,只是将故事记录而已