当前位置:问答库>论文摘要

题目:高性能网络爬虫的研究与实现

关键词:网络爬虫;高性能;可伸缩性;URL去重

  摘要

随着Internet的迅速发展,web信息日益增长,网络爬虫作为搜索引擎的基础构件之一,也面临着许多严峻的挑战。本文首先介绍了网络爬虫的工作原理和发展现状,详细阐述了网络爬虫的基本模块和相关技术,然后重点研究和探讨了实现一个高性能的网络爬虫所涉及到的一些关键技术,包括:系统架构、爬行策略、URL去重、更新策略、分布式爬行,并提出了切实可行的解决方案。本文最终设计并实现了一个具有高可用性的高性能网络爬虫BH-Crawler。BH-Crawler采用高效的异步IO架构,可伸缩性强,同时使用主机优先级队列的数据结构,在优先下载重要URL的同时,兼顾“礼貌”问题。对于URL去重,BH-Crawler使用基于磁盘的方式,支持十亿级URL的快速检测去重,在更新策略上,选择增量更新模型。为了避免单机系统的限制,BH-Crawler支持分布式爬行。本文将BH-Crawler与目前爬行速度最快的开源网络爬虫Larbin进行了对比测试,测试结果表明:BH-Crawler工作稳定可靠,下载速度是Larbin的3倍左右,是一个稳定可靠的实验平台和工具。