当前位置:问答库>论文摘要

题目:分布式主题网络爬虫的设计与实现

关键词:分布式,主题爬虫,HttpClient,Redis,URL去重

  摘要



随着主题搜索引擎的快速发展,在互联网行业占有一席之地,在面对海量数据的前提下,如何能够快速、有效、稳定的提供更多有关主题的准确数据,成为主题爬虫的面临的一个难点以及多个爬虫结点之间的管理问题。

在分析了一般的主题爬虫的设计架构的基础上,提出了一种高效的分布式架构,有效的结合了主题爬虫和分布式的架构,并且采用自定义的通信机制,保证中控调度系统和爬虫结点之间的稳定信息交流,解决了爬虫结点管理的问题;在调度系统中使用了一种智能化的调度策略,来保证任务自动智能化的分发到各个爬虫结点中,实现均衡采集与主题相关的页面内容;在爬虫结点中采用URL的Md5值去重策略和多线程机制实现可以加快采集速度,尽快的获取主题资源;在提取页面内容上,通过配置XML形式的模板形式来提取制定内容,并且通过模板的改变满足不同主题的之间的任意切换。

本系统结合分布式的架构,采用自定义智能调度算法,提高了主题爬虫的整体效率,通过选取真实、大规模的网站进行数据采集,经过测试本系统每天能够采集高达几百万的数据量。提供灵活的模板配置方法,提供的主题之间的灵活切换。最后系统已经正式投入运行,为公司的主题搜索引擎提供大量优质数据。