当前位置:问答库>论文摘要

题目:面向科技信息的搜索引擎关键技术研究与实现

关键词:元数据,搜索引擎,元搜索引擎,搜索结果聚类,导航,检索性能

  摘要

随着Internet网络规模的迅猛发展及信息的爆炸式增长,要在浩如烟海的信息海洋中找到真正需要的内容,搜索引擎成为了一种必不可少的现代信息获取工具。它通过预先获取待检索信息并对其进行加工处理,建立可快速检索的索引数据库,最终达到提供信息查询服务的目的。同样,国家科技基础条件平台集成了丰富的科技资源,为了充分利用这些资源,方便科技人员在工作中准确的查找、定位资源,提高资源的使用率,需要开发针对国家科技基础条件平台特点的科技资源检索系统。不同于一般的检索系统,门户应用系统的科技资源检索的检索对象是科技基础条件平台各子平台提供的科学数据资源、种质资源、文献资源等,检索对象众多且在内容和特点上都存在很大差异。为此,本文引入搜索引擎的相关技术,使得门户应用系统信息检索模块取得良好效果。本文引入元数据体系,解决了实体资源难以描述和检索的问题。根据资源存储位置和类型,对于门户应用系统而已,资源共分为三类:本地元数据、子门户数据和本地网络资源。为了实现对这三类资源的信息检索任务,本文有针对性的采用了相应技术。对于本地元数据资源,本文采用导航与检索的方法;对于子门户数据,本文采用元搜索技术,通过门户应用系统元搜索引擎同子门户的独立搜索引擎相结合,实现了查询范围覆盖整个基础条件平台的信息检索服务;对于本地网络资源,本文通过自主研发的独立搜索引擎,实现了高效信息检索,同时,本文还针对搜索引擎结果返回过多的问题,引入搜索引擎结果聚类思想,向用户提供启发式搜索服务。本文主要工作内容在于:根据国家科技基础条件平台实际,制定了一套元数据标准格式规范,并构建了相应的信息导航与检索系统;设计并实现了元搜索引擎系统,同时,给出了门户应用系统与子门户独立搜索引擎进行信息交换的格式标准;借鉴文本聚类思想,结合搜索引擎的搜索结果特点,提出了KCC结果聚类算法,并设计和实现了一个原型系统。