当前位置:问答库>论文摘要

题目:基于Hadoop的分布式主题爬虫及其实现

关键词:主题爬虫;Hadoop;主题相关度

  摘要


随着互联网的广泛应用,网络信息呈现出指数级增长,与此伴随的是人们对于随时随地获取信息的迫切需求,如何利用现有的网络及相关资源为用户提供有效的信息成为亟待解决的难题。主题网络爬虫系统是解决以上难题的一个有效办法,同时云计算的蓬勃发展让提高爬虫系统的效率成为可能。Apache开发的Hadoop平台是一个对用户极为友好的开源云计算框架,本文的目标就是在Hadoop的框架下设计并实现一个主题爬虫系统,主要工作如下:

(1)探讨了Mapreduce计算模型和HDFS分布式文件系统等涉及Hadoop平台的相关内容,进一步探讨了主题爬虫的体系架构、工作流程和特点等。为了获取更专业、准确的主题信息,对一系列基于主题爬虫的关键技术,诸如相关度判别、页面正文抽取、超链接抽取等进行了研究。在这些研究工作的基础上,本文在充分吸纳已有成果之时,对主题相关性判别技术做了改进,使得系统对主题信息的定位和查找更加精确,抽取到的信息更加符合实际需要。

(2)根据实际情况设计了基于Hadoop的主题爬虫系统,详细阐述了系统工作流程和基本框架。为了使该系统获取到的信息有利于后期信息处理和索引,本文设计了正文抽取模块对抓取到的页面进行批量过滤,并将符合要求的内容页的正文提取出来,使信息结构化。

(3)研究论述了系统的总体构架和各模块的实现过程,包括数据存储结构、系统功能模块划分及各模块的Mapreduce实现等。

(4)在实验室Hadoop平台上部署了该系统并进行了测试。从测试结果分析得出,本文设计的主题爬虫系统,其各功能模块运行良好,能以较高的准确率对主题信息进行抓取;同时,相比单机爬虫系统,其数据抓取效率明显提高,灵活性和扩展性也大大增强。