● 摘要
互联网流量数据蕴含丰富的网络行为信息,在网络运营与管理中发挥着重要作用。流量矩阵是记录全网络级别流量数据的常用方法,能够全面反映大规模网络整体运行状况。流量矩阵包含多种流量成分,对应于不同用户行为,合理分解流量矩阵的各种流量成分,是互联网流量研究中的一个关键问题。
论文围绕流量矩阵分解问题,在流量矩阵建模、流量矩阵分解优化问题与数值算法、流量矩阵模拟、流量分解方法评价等方面开展了一系列研究工作。根据真实流量矩阵数据的组成特点,提出流量矩阵分解模型(TMDM),对各种流量成分进行合理假设,刻画确定性流量的低秩性、异常流量的稀疏性以及噪声流量的平稳高斯分布。将鲁棒主成分分析(RPCA)理论引入流量矩阵研究,指出流量矩阵分解问题与广义的RPCA问题的数学等价性。基于稳定主成分追踪(SPCP)方法研究流量矩阵分解,通过定性实验说明该方法具有可行性,但仍存在较大的改进余地;将RPCA理论与流量数据的时间特性相结合,分别使用频域正则化技术和小波多分辨率分析工具,提出两种改进的SPCP流量分解方法及相应的数值算法;最后,通过模拟流量数据全面的评价各种流量矩阵分解方法。
研究发现,SPCP方法分解噪声流量中包含缓慢变化的周期性模式,与噪声流量的平稳假设不符。针对这个问题,对噪声流量的频谱进行细致分析,使用频域正则化技术,设计频域惩罚函数替换SPCP方法中噪声流量的目标函数,提出频域正则稳定主成分追踪(SPCP-FDR)流量分解方法,对混入噪声流量的低频周期性模式进行过滤。研究中还推导了SPCP-FDR优化问题的数值算法,并对算法收敛性给出理论结果。
另外,SPCP方法分解确定性流量的光滑性较差,与确定性流量的直观特点不符。针对这个问题,利用小波系数的值分布刻画光滑性,提出多分辨率流量矩阵分解模型(MR-TMDM),该模型是对TMDM模型的精细化改进。根据MR-TMDM模型假设,将小波多分辨率分析与RPCA理论相结合,对确定性流量和噪声流量分别设计多分辨率约束函数,提出多分辨率约束稳定主成分追踪(SPCP-MRC)流量分解方法,并为SPCP-MRC方法设计高效数值算法。针对数值算法中确定性流量的优化子问题,给出并严格证明了解析解,是对Proximal算子研究的新成果。
通过对流量矩阵各组成成分的模拟,生成多组有代表性的流量矩阵数据集,以综合评价各种流量矩阵分解方法。通过定性手段与定量手段,比较PCA、SPCP、SPCP-FDR、SPCP-MRC等分解方法的实验效果。实验结果表明,研究中提出的三种流量矩阵分解方法均对PCA方法有所改进,且SPCP-MRC方法和SPCP-FDR方法的准确度均优于SPCP方法。这说明结合流量矩阵数据特点,对RPCA理论的改进研究具有明显的性能提升。研究中还对真实流量矩阵数据的分解结果,进行了有益的分析与讨论。
论文研究工作为流量矩阵分解问题建立一套新的框架,提出的理论方法丰富了流量矩阵的分析手段,得到的实验结论是对流量分解的评价具有参考价值。