● 摘要
随着网络技术的发展,web上的信息海量增加,人们对信息的需求也不断加大。用户查找信息的途径已经从10年前的图书馆逐渐转换为通过搜索引擎进行查找,这对搜索引擎信息的覆盖面和准确度有了更近一层次的要求。搜索引擎的信息来源是互联网上的网页信息资源,互联网上的网络信息资源从存在方式上分可以分为surface web和deep web两种,surface web指的是以静态html形式存在互联网上的可以被传统搜索引擎索引的网页信息;而deep web是通过动态页面的形式表现,信息存在于网络中的数据库中,传统的搜索引擎无法索引。据估算,传统搜索引擎无法索引的这类deep web信息占互联网上所有信息的99%。传统搜索引擎之所以无法获取网络中的深度web资源信息,是因为它面临着三个方面的困难:一是如何从海量的互联网上寻找拥有deep web信息的网页。二是找到这些网页后如何对这些网页中的deep web接口进行有效性分析。三是找到有效的接口后如何将这些信息从数据库中尽可能多的提取出来。本系统着力于解决这三个困难点中的前两点。通过对深度web资源的挖掘,可以大大提高搜索引擎的查全率和查准率,为搜索引擎用户提供更多、更有效的信息资源。 本文首先介绍了传统搜索引擎和爬虫的相关知识,分析传统搜索引擎的爬虫在解决查找深度web资源方面的不足,提出了深度web资源探测系统的概念。设计并实现了任务可扩展框架,在任务可扩展框架的基础上,从爬虫的爬行策略、URL过滤和种子URL处理等方面作为重点进行了研究,提出了基于站点的爬行策略、基于站点的URL过滤和优化种子URL的冰箱算法三个创新点。然后对获取到的深度web资源接口采用决策树判断的方法进行分类判断其有效性。论文的最后,对研究和开发过程中遇到的没有解决的问题或新的设想进行了总结,为未来的工作提出了一些展望。