当前位置:问答库>论文摘要

题目:基于深度搜索的信息资源获取技术的研究与实现

关键词:深层网络;深度搜索;下一页超链接;查询关键词选择

  摘要

随着Internet的快速发展,供人们使用的电子信息资源越来越丰富,但要快速有效地获取所需的相关信息却变得越来越困难。因而对信息获取技术的发展提出了更高的要求。传统搜索引擎仅仅对通过超链接相互连接的表层静态网页进行索引,而无法对互联网中许多动态的、存储在网络数据库中的结构化信息进行索引,使它们变得不可见。这些深层网络信息具有数量巨大,质量高,增长速度快等特点。传统搜索引擎对这些深层信息无法搜索和分析,因此提出Deep Web信息获取技术。本文首先介绍了搜索引擎的相关知识以及Deep Web的概念,接着研究了Deep Web的形成原因及Deep Web信息获取技术,通过对一些现有Deep Web检索工具及典型系统HiWE的分析,总结了Deep Web信息获取技术中的核心问题。本文研究并提出了一种新的查询结果页面“下一页超链接”识别策略,该策略通过“下一页超链接”自身的结构特征来识别“下一页超链接”,解决了以往识别准确率低的问题,并通过试验分析证明了该策略的有效性和可行性。本文在基于关键词关联关系特征来选择下一个查询关键词[1]的设想上,提出了属性关系图模型,详细分析了该模型,并将该模型同基于词频统计的查询策略进行了试验对比,证明了该策略的有效性。本文结合课题依托项目国家科技基础条件平台门户应用系统的特定需求,提出并设计了Deep web信息获取系统,集成到科技门户应用系统中。