● 摘要
本文主要就网页搜索引擎的Web信息采集系统的设计和实现进行了论述。作为搜索引擎非常重要的核心部分,Web信息采集系统主要的功能就是从Web上采集、分析和存储Web信息,并将这些Web信息提供给搜索引擎的检索服务使用。它在保证搜索引擎拥有的数据的数量、质量和及时性等方面,起着不可替代的作用。然而,Web信息采集系统存在以下几个方面的难点:1.采集速度。Web信息采集系统如何在短时间内从Web上采集和抓取成千上万、上亿、几十亿的Web数据,这就要求具备很快的采集速度;2.采集数据的质量。互联网上的信息错综复杂,垃圾数据漫天飞舞。如何对这些数据进行准确的分析,过滤掉没有价值的数据,留下对用户有用的信息,这也就要求Web信息采集系统要采集高质量的、有效的数据;3.数据的实时性。互联网上的信息瞬息万变,如何保证搜索引擎数据的实时性。这就要求Web信息采集系统能够对采集到的数据进行实时地监控和及时地更新;4.采集的优雅性。由于网络资源的共享性和有限性,就要求Web信息采集系统不能对被访问的网站以及它自身所在的网络造成太大的压力,必须采用比较优雅的方式进行采集。针对上述问题,本文所论述的Web信息采集系统在设计和实现过程中提出和应用了一些解决方法。如:采用基于集群服务器的分布式并行采集方法提高采集速度;基于URL垃圾过滤、基于名单的垃圾过滤、基于内容的垃圾过滤、基于链接关系的垃圾过滤等策略提高采集数据的质量;根据网页质量衡量的权重关系确定更新周期的更新策略、采用名单方式确定更新周期的策略等最大程度地保证重要网页的实时性;根据网站重要度、网站规模等特征控制对该网站的采集频度等方法来实现采集的优雅性等。这些都在本文中作了较为详细的论述。以下就是论文的主要内容:1. 简要介绍本文所介绍系统的发起背景和意义,以及Web信息采集系统目前在国内外的一些发展状况和所遇到的一些难题。2. 简要介绍Web信息采集系统的原理、基本架构及设计和实现过程中遇到的一些难点,并对基本架构设计中的一些缺陷和不足作了简单的说明。3. 详细介绍本文所要论述的Web信息采集系统的设计方案。包括总体架构、优雅采集策略设计、分布式并行采集方法设计、垃圾信息过滤方法设计等。4. 详细介绍本文索要论述的Web信息采集系统的实现方法。包括Seed播种模块,均衡协调器,ID管理器,爬行器(Crawler),URL服务器, domain信息管理器,信息解析服务器,链接关系及Anchor Text分析器,信息存储服务器等。目前,本文所论述的系统已经正式投入了应用,开始为企业创造财富和价值。在采集的速度、数量和质量上都达到了较好的效果。