● 摘要
随着计算机互联网络在我国的迅速普及,社会科技、经济的飞速发展,信息网络与人们日常生活的联系越来越紧密,影响也越来越大。互联网络信息的开放性,决定了其内容的多样性,人们在享受互联网带来便捷的同时,也受到许多不良信息的影响。作为公共安全部门,如何应对这些不良互联网络信息,成为各级公安机关的重要责任。WPISS(Website Page Information Supervise System, 简称WPISS)公共信息网络监察系统为公安机关的日常监察工作提供了服务,它解决了目前公安机关对网络信息监察的效率低、效果差、安全性不稳定等问题。它根据用户设置的关键字和监控站点信息,对监控站点进行网页的爬行,并进行实时的分析。用户根据分析结果,将敏感度高的网页生成指定格式的文档,上报到上级部门。本文的工作重点是设计和实现WPISS系统中的网络爬行子系统,为WPISS的信息分析和处理提供了数据来源。本文在分析了WPISS系统的实际需求后,提出了一种对Web网页进行抓取的解决方案。即以C/S(Client/Server)软件体系结构为系统的整体架构,以Microsoft SQL Server 2000为数据库系统,以HTTP(Hyper Text Transfer Protocol)协议为基础,从Web站点抓取Web页面,在对站点进行遍历时,采用了广度优先的算法;使用Microsoft的MSHTML组件对页面的分析;在Client与Server 的数据交互中,采用了DB-Library API接口,完成了整个网络爬行子系统的开发工作,实现了对Web网页进行抓取、分析处理和数据保存等功能。最后,通过对网络爬行子系统进行的模拟和实际测试表明,整个系统基本完成了预期目标。目前,网络爬行子系统已成功部署在WPISS系统中,WPISS系统正在吉林省公安厅、市公安局等机关试运行。