当前位置:问答库>论文摘要

题目:基于.NET的Web新闻采集系统的设计与实现

关键词:网络爬虫;分布式系统;Web信息抽取;多线程

  摘要


由于互联网的开放性与快速传播能力,目前Web已成为人们发布信息和获取信息的重要渠道。但互联网的迅速发展也带动了信息量的爆炸式增长,而且新闻信息一般具有不可预见性、更新频率快、时效性强等特点,所以新闻信息的采集一直是国内外研究和开发的热点。

本文在研究了目前新闻信息采集系统的开发理论与实践的基础上,根据公司的实际需求,采用.NET技术设计和完成了一套分布式的Web新闻采集系统。本系统的爬虫服务采用主从式分布式架构设计,分为中心机和任务机。中心机负责任务的分发和任务机的负载均衡,任务机负责网页下载和信息提取。系统的管理后台采用B/S架构,完成管理工作。

本文主要的研究内容有:

(1)通过对分布式技术的研究和对系统的需求分析,提出了一种基于ASP.NET Web

API的轻量级分布式架构,即提高了系统的扩展能力又降低了系统的开发复杂度。

(2)使用线程池技术设计实现中心机服务,主要功能有对网络爬虫的管理调度,任务队列的管理,缓存的管理等。

(3)采用C#语言和Python语言相结合的方式设计和实现爬虫服务,充分利用了脚本语言和静态语言的各自优势,把经常变动的信息提取规则放到脚本中实现,提高了系统的灵活性。

(4)基于ASP.NET MVC框架设计实现管理后台功能,把业务逻辑和界面显示逻辑进行分离。管理后台主要完成抓取脚本的管理,合作伙伴的管理,抓取信息的管理,系统运行日志的管理。

目前,系统正处于试运行阶段,已经稳定运行了一段时间。系统能够及时的抓取到合作伙伴发布的新闻信息,并根据配置的模版精确的提取出编辑所需要的信息,减少了编辑转载文章时的编辑时间,提高了文章发布效率。