● 摘要
搜索引擎作为一种信息检索技术在互联网时代的应用,使人们能够快速的获取各种资源,而网络爬虫做为搜索引擎的核心无疑有着举足轻重的作用。 本文首先对网络爬虫做了全面的分析介绍,包括通用网络爬虫和主题网络爬虫两种,并且对通用爬虫中google crawler和mercator做了详细介绍,另外还对网络爬虫的一些关键技术进行了介绍。基于这些关键技术,本文设计了一个轻量级的分布式网络爬虫系统LWWC,重点介绍了其中的各个模块。 LWWC爬虫系统具体包括以下部分:1. 爬虫控制节点;在分布式爬虫系统中,控制节点就相当于是系统的核心中枢,需要它来协调各个下载节点,同时控制节点还需要对链接进行统一的管理,即对URL的路由转发。2. 爬虫下载节点;爬虫下载HTML页面的实际工作是由下载节点来具体完成的,它的主要任务就是不断的从控制节点获取URL,然后不断的从Internet下载Web页面,并且将解析的URL传送给控制节点。3. MRER算法;是LWWC系统使用的链接去重算法,它是基于Map-Reduce模型,采用分治的磁盘管理方法来对URL进行过滤去重.4. 其它模块,包括页面解析器、过滤器和使用的一些其它技术。 在实验部分中,除了对LWWC系统的整体性能进行验证外,还对MRER算法进行了验证。通过对最终实验数据进行分析,从而得出最后的结论。
相关内容
相关标签