● 摘要
本课题来源于北京四维图新科技股份有限公司。四维图新为了多渠道获得情报、提高情报利用率,进而降低地图生产成本和实现地图快速更新,准备建立情报中心平台。情报中心平台由情报获取系统、情报清洗系统、情报分析系统、情报发布系统及情报管理系统组成。作为一个爬虫程序,网络信息采集系统是情报中心平台中获取网络情报的系统。课题重点解决数据结构化、可视化模板设置、多服务器作业调度等问题,重点研究数据结构化、页面解析、信息采集、信息查重、采集作业调度、采集模板设置、采集源设置等技术和功能。数据结构化是信息采集一个重要过程;课题通过动态设计生成数据表策略,实现不同类别的信息以不同的结构进行存储。页面解析和信息采集主要集成HTMLParser技术来实现,涉及到采集源页面登录、页面参数及采集代理服务器等配置,是系统的核心技术;信息查重是通过对信息进行MD5处理获取信息的摘要,通过对比摘要判断是否重复;通过对HTMLParser技术的应用和创新,设计实现了可视化的采集模板设置界面。采集作业调度是通过集成Quartz插件来实现的,实现了多服务器部署和采集。以后将在采集源自动分析及查重策略方面进行完善,以便更好地满足实际需求。本文从课题背景开始论述了课题概况、需求分析、总体设计、详细设计和系统评测等五部分内容。重点阐述了系统总体设计及主要三个模块的详细设计与实现。总体设计从系统架构分层及关键问题两个方面进行论述;首先论述系统整体架构及各层情况;然后针对关键问题及解决方案进行论述。详细设计部分论述了信息采集、采集源管理和采集模板管理这三个核心功能