● 摘要
随着计算机技术、通讯技术以及网络技术的飞速发展,在许多领域出现了一些大量的数据记录,硬件技术的进步能够使这些数据得以保存。但是随着海量、动态的数据不断涌入,无法把所有数据直接存储在磁盘上,并且对数据进行多次处理带来了一定的挑战。区别于传统数据库中的相对静态数据,这种连续的、无限的、快速的、随时间变化的数据称之为数据流。数据流的出现,对于许多数据挖掘方法和数据库操作,如聚类、分类和频繁模式挖掘带来了新的机遇和挑战,同时也拓宽了相关的研究领域。由于数据流具有连续快速、短暂易逝和不可预测的特点,在数据流上进行聚类比静态数据上的聚类面临更多的困难。数据流聚类算法应具有能够在有限的内存空间上执行、对数据进行一次或较少次数的线性扫描的能力。此外,对数据流而言,存储所有的数据是不实际的,随机访问的代价也是相当高,这对聚类结果的存储也带来了一定的问题。本论文的研究工作就是在这样的背景下进行的。论文以符号数据中的区间数据分析为脉络,在数据流聚类过程中,对Squeezer算法进行分析和改进;在对高维数据流降维分析时,对聚类所得区间数据表进行主成分分析过程中,采用一种有效的区间数据主成分分析方法;当原始数据从单一数据流问题扩展到多个数据流的情况下,对质心集所形成的大规模矩阵聚类也是论文研究的一个方向。具体来说,论文的研究工作和创新点主要体现在以下几个方面:(1)提出一种改进的Squeezer算法,可以有效地防止聚类过程中质心的不断偏倚和链条效应,并利用区间数据的思想对数据流进行概要存储。Squeezer算法是一种应用于大规模数据集的一种聚类算法,也可以用于数据流问题。对于聚类后的存储问题,如只存储类的质心,会带来大量的信息损失和加大后续聚类的误差;如存储类的所有数据信息,则加大了数据流的存储空间并带来处理效率的低下。针对此问题,论文用区间数据对聚类结果进行存储来进行研究。在新的数据到达,对数据流进行重新聚类后,根据设定阈值允许范围内,对区间数据的上下限进行动态的调整。对于有链条效应的数据,采用Squeezer算法进行聚类时,会导致某些类的规模不断变大,同时类的质心也会不断偏倚。针对这一问题,论文通过对区间半径设定阈值的问题来进行研究,用相应的阈值来有效控制类的大小,并有效地控制类质心的移动,提高聚类后类的精度。(2)采用区间数据表主成分分析方法,用于处理高维数据流聚类后所得区间数据表的降维问题,存储降维后的数据流同样能节省存储空间。1997年P. Cazes等第一次提出区间数据的主成分分析方法,称为顶点主成分分析算法(VPCA)。该方法已经在很多研究领域都得到广泛应用。然而,VPCA在应用中最大的局限性是其计算工作量会随着变量个数的增加而急剧膨胀,按指数速度增长。针对这一问题,P. Cazes提出可以采用协方差矩阵运算避免该问题的思想。本论文将该思想用于高维数据流聚类后所得区间数据表的降维问题,并通过降低高维区间数据的维度来实现数据流的概要存储。(3)提出针对大规模矩阵的聚类算法,能有效解决多个数据流的聚类问题,实现对数据流进一步的概要存储。通过对Squeezer算法进行分析研究,在定义2个矩阵之间距离的基础上,利用所提出的改进Squeezer算法,用于对维数相同的大规模矩阵进行聚类分析。改进的算法在设定距离阈值的基础上,对类别的半径设定阈值来控制分类精度,给出具体的算法步骤来实现针对大量矩阵的聚类分析。对聚类后所得矩阵集合,给出集合质心和半径的定义,来描述矩阵集合的特性。
相关内容
相关标签