当前位置：问答库＞论文摘要

题目：基于.NET的Web新闻采集系统的设计与实现

关键词：网络爬虫;分布式系统;Web信息抽取;多线程

● 摘要

由于互联网的开放性与快速传播能力，目前Web已成为人们发布信息和获取信息的重要渠道。但互联网的迅速发展也带动了信息量的爆炸式增长，而且新闻信息一般具有不可预见性、更新频率快、时效性强等特点，所以新闻信息的采集一直是国内外研究和开发的热点。

本文在研究了目前新闻信息采集系统的开发理论与实践的基础上，根据公司的实际需求，采用.NET技术设计和完成了一套分布式的Web新闻采集系统。本系统的爬虫服务采用主从式分布式架构设计，分为中心机和任务机。中心机负责任务的分发和任务机的负载均衡，任务机负责网页下载和信息提取。系统的管理后台采用B/S架构，完成管理工作。

本文主要的研究内容有：

（1）通过对分布式技术的研究和对系统的需求分析，提出了一种基于ASP.NET Web

API的轻量级分布式架构，即提高了系统的扩展能力又降低了系统的开发复杂度。

（2）使用线程池技术设计实现中心机服务，主要功能有对网络爬虫的管理调度，任务队列的管理，缓存的管理等。

（3）采用C#语言和Python语言相结合的方式设计和实现爬虫服务，充分利用了脚本语言和静态语言的各自优势，把经常变动的信息提取规则放到脚本中实现，提高了系统的灵活性。

（4）基于ASP.NET MVC框架设计实现管理后台功能，把业务逻辑和界面显示逻辑进行分离。管理后台主要完成抓取脚本的管理，合作伙伴的管理，抓取信息的管理，系统运行日志的管理。

目前，系统正处于试运行阶段，已经稳定运行了一段时间。系统能够及时的抓取到合作伙伴发布的新闻信息，并根据配置的模版精确的提取出编辑所需要的信息，减少了编辑转载文章时的编辑时间，提高了文章发布效率。

当前位置：问答库＞论文摘要

题目：基于.NET的Web新闻采集系统的设计与实现

相关题目: