● 摘要
随着IP网络技术的飞速发展,高速网络环境下的大流量和复杂多变的应用协议,给网络流量测量和分析工作带来了新的挑战。传统的协议识别算法已无法适应当前复杂多变的网络环境,尤其是对采用动态端口的众多P2P应用。因此,针对传统的基于端口识别方法的局限性,本文提出了一种基于Flow的应用协议半监督识别算法。以Flow报文数据为基础,对Flow报文的属性元组进行子空间聚类,确定每种协议类型的特征属性维组,以此识别Flow数据的应用协议类型。本文的主要工作和取得的成果有:1、提出基于Flow报文分析的半监督应用协议识别算法。采用Flow报文中的多个属性综合识别,解决了传统依赖端口识别算法的不足。采用半监督算法,仅需少量标记数据即可完成聚类,解决了传统聚类算法需要标记所有数据的工作量和操作性的问题。2、给出了Flow属性缩减算法。基于有效维度的距离和邻近点的有效维度判定策略,对每种协议类型,从Flow属性组中选择出有意义的属性子集作为协议特征,以缩减运算量,提高准确性。3、设计并实现了协议分析识别系统。主要实现了以下的功能:(1) Flow历史报文数据查询;(2) Flow历史报文数据的协议识别;(3) Flow历史报文数据多维度聚合分析;(4) Flow流量的分析。基于协议分析识别系统,论文对上述算法进行了验证。实验结果表明,本文提出的基于Flow的应用协议半监督识别算法在测量准确度上优于传统识别算法,有效地解决了当前复杂网络中的协议识别问题。
相关内容
相关标签