● 摘要
随着互联网信息的飞速增长,搜索引擎因其能够高效、准确地获取包含用户所需信息的网页成为了互联网的入口点。网络爬虫作为搜索引擎的重要组成部分,被设计用来抓取网页信息。而网络爬虫URL判重的表现情况,影响着网络爬虫的总体性能。本文对网络爬虫中的URL判重方法进行了研究,提出了一种新型布隆过滤器用于URL判重。本文分析了不同的URL判重方法,并对URL判重进行数学建模,得出结论是在大数据集中判断成员关系。因为布隆过滤器最初的设计目的就是用于解决判断成员关系,所以本文选择布隆过滤器来实现URL判重。深入研究目前已有的几种重要布隆过滤器变型的基本原理,并分析它们的优缺点以及URL判重的需求。进而提出一个框架结构,能够扩展现有的计数型布隆过滤器使其支持动态集合,但是这种扩展是以牺牲空间为代价的。为了降低因框架而增加的空间,本文接下来讨论如何压缩计数型布隆过滤器,最后,将压缩后的计数型布隆过滤器应用到框架内形成本文提出的动态可压缩布隆过滤器。此后,设计实现网络爬虫系统动态可压缩布隆过滤器应用其中的URL判重功能,通过设计实验测试方法,获得实验结果并进行分析。本文通过设计实验,在真实的网络中测试使用基于动态可压缩布隆过滤器进行判重的网络爬虫。通过测试结果中的两个重要性能指标进行分析,结果表明:本文提出的动态可压缩布隆过滤器能够以更高效的空间利用率和更低的误报率来支持网络爬虫的URL判重部分。
相关内容
相关标签