● 摘要
为了解决IPv4地址空间不足的问题,引入了IPv6协议。当前,国内IPv6网络发展迅速,以IPv6协议为基础的网络已经开始了大规模部署。然而,现有IPv4网络向IPv6网络的演进却是一个长期的过程,为了在IPv4/IPv6过渡期下对国内IPv6网站进行实时的跟踪与监测,本文设计并实现了一个IPv6站点信息采集与统计分析系统。 该系统采用网络蜘蛛信息采集技术周期性地对互联网上的IPv6站点进行采集,并对采集到的结果进行多方位的统计分析,最后在前台生成多种样式的分析结果报表。采集系统采用分布式部署、并行采集的方式,具有很强的扩展性。主要工作内容体现在以下几个方面: 1.设计并实现IPv6站点信息采集子系统。本文首先对目前主要的Web信息采集技术进行了调研并对其进行归类分析,从中抽象出通用Web信息采集系统的基本结构,然后对网页解析器、链接信息提取器、爬虫队列等部件分别进行了详细的设计。 2.设计并实现IPv6 站点统计分析子系统。通过分析系统功能需求对系统进行模块划分,搭建三层J2EE架构模型,整合SSH框架,处理数据层、业务逻辑层和Web层,在前台JSP页面通过报表技术显示分析得出的结果。 3.提出了一种IPv6站点过滤算法及分布式分级排重算法。本文通过分析IPv6地址块的特点,设计了一种基于Bloom Filter算法的IPv6站点匹配算法,可以实现对特定IPv6地址块的精确匹配。同时针对局域网分布式网络爬虫设计了一套数据排重系统,并基于此提出了一种分级排重算法。 最后,通过实际系统的部署与测试,结果显示该系统采集性能稳定,扩展性较强。
相关内容
相关标签