● 摘要
随着互联网技术的日趋成熟,核电企业信息一体化进程也在不断提速,各核电企业门户网站上提供了大量有价值的信息和数据。与此同时,核电相关企业的用户对核电行业的信息检索的需求也与日俱增,希望能够检索到高质量的核电信息数据。传统搜索引擎不能满足不断增长核电企业用户的差异化需求,目前还没有专门针对核电行业搜索的引擎。因此,迫切需要一个有良好的扩展性、数据专业化程度高并且数据更新及时的面向核电行业的分布式垂直搜索系统。
本文主要研究内容有:
(1) 搭建Hadoop分布式集群服务,并且设计实现垂直搜索引擎的重要功能,主要包括:实现网页信息采集、网页信息分析、网页信息索引和网页信息检索功能,同时会构建核电主题词库。
(2) 设计并实现核电行业主题相关性判别算法,改进检索结果排序的算法,使其更加符合垂直搜索引擎的特点。设计实现算法支持多元异构文档的解析,并支持中文分词解析。
(3) 设计并实现垂直搜索引擎的系统管理功能,主要包括词库管理功能和网址的管理功能,采用的SSH技术架构进行系统实现。
本文首先介绍了垂直搜索引擎的国内外研究现状,然后对其涉及的相关技术进行了详细的阐述,最后对项目进行了需求分析、系统设计和实现,系统运行测试,最终实现了核电行业的垂直搜索引擎系统,并顺利应用到企业的生产环境当中。