● 摘要
如今,互联网信息发布速度越来越快,正以指数级别迅速增长,传统的搜索引擎想抓取及时、完整的信息也变得越来越难。新闻、博客等这类网站,是主要的频繁更新数据的数据源,传统的搜索引擎抓取信息的机制已经不能满足这些动态实时数据的更新速度,热门的、突发的信息无法及时收录。RSS技术是近几年发展起来的在互联网上被广泛采用的内容包装和投递协议,是在线内容共享的简易方式。随着WEB 2.0技术的发展,RSS将成为网络内容时效性、结构化、易解析的保证。基于RSS的特定领域抓取系统,可以有效的解决新闻、博客等站点上新出现的页面抓取不及时,以及数据重复抓取的问题。本文以一个实际的RSS信息抓取服务项目为背景,研究搜索引擎中Web信息抓取系统架构的特点和难点,以及RSS协议规范和报文结构。根据业务环境及需求,分析RSS信息抓取系统的特点,明确设计目标并进行系统总体设计。系统采用分布式的架构,能够通过添加节点的方式快捷地提高系统性能。着重研究了RSS的文章更新算法、文章去重算法、防封禁功能和海量存储等。最后对系统进行测试和评估,分析系统的性能和瓶颈。在两年的使用过程中,系统能够正确处理RSS的信息,在并行的情况下,可以对数千万级的RSS Feeds进行及时和有效的抓取,符合最初的系统需求。