● 摘要
网络故障管理的目的是保证网络能够提供连续可靠的服务。当网络中的设备发生故障时,迅速地发现和排除故障是保证网络安全、可靠的前提,这也是网络管理的首要任务。在网络故障管理中,如何快速准确地识别网络流量的异常是进行大规模网络管理的关键之一,而目前的流量异常检测方法难以兼顾实时性、准确性、自适应性的要求。本文提出了一种基于自回归模型的网络流量异常检测Abntad(AR Based Network Traffic Anomaly Detection,基于AR模型的网络异常检测)算法。通过与传统阈值检测方法以及Holt-Winter方法的对比分析,得出Abntad算法具有启动延迟小、异常检测正确率高、检测实时性较高、能够处理连续长时间异常的特点。同时,目前的网管告警系统针对的往往是初级的流量异常或异步事件告警,这导致了告警总量大、单个告警包含的有效故障信息少的问题,使得网管系统针对告警难以做出快速、准确的响应。因此,本文通过定义一套综合告警规则,将网络流量异常与异步事件进行关联以生成综合告警。通过向网管人员提供综合告警信息,更好地指导网管人员进行故障的定位与排查。本文采用数据挖掘方法生成相应的综合告警关联规则。同时,本文提出了对告警数据序列进行时间同步处理得到告警事务库的方法。最后,本文利用上述的网络流量异常检测算法和综合告警规则,设计并实现了一个综合告警管理原型系统。通过一系列的测试和分析,验证了该系统的正确性以及对于大型网络管理工作的可用性。