● 摘要
事物随着时间不断发展,演化是事物存在的重要特性。仅仅从一个时间截面观察到的数据往往受噪音和随机事件干扰,从而使得由相邻时间截面得到的结论缺乏一致性和鲁棒性,甚至相互矛盾。演化也是知识积累:上一个时间截面得到的结论,可更新原本的知识进而成为下一个时间截面判断依据。因此,本研究拟从演化的角度,挖掘隐藏在数据背后的发展规律和模式,即演化聚类。
演化聚类的研究对象是随时间不断变化的数据,其要求既能抵抗短期的噪声扰动,又能反应长期的数据趋势地挖掘每个时间截面的数据内在模式。演化聚类与传统的静态聚类相比有着明显的实用性和优越性。然而,目前的演化聚类算法只利用前一期的聚类结果对当期进行调整,无法引入多期聚类结果。有鉴于此,本研究提出了一种基于K均值的组合聚类方法对多期结果进行融合。
具体而言,本文定义了基于K均值的组合聚类算法,并利用K均值距离泛化理论,给出了K均值的组合聚类算法效用函数的泛化公式,并给出了效用函数的充分必要性条件。特别是针对基于熵的效用函数,在此利用K均值距离范式解决了其“除零问题”;在此框架内利用逐点更新策略进行迭代求解,并根据问题本身,提出了相应的加速策略。此外,本文提出了演化过程中样本不一致情况下的解决方案,并证明了其收敛性。实验结果表明,本文提出的基于知识重用的演化聚类算法比静态K均值和演化K均值算法,有明显优势,得到的结果不仅质量高,而且波动性小。当融合的窗口长度为10时,既能够得到高质量的聚类结果,还能够节约计算成本和存储空间。
最后,本文将基于知识重用的演化聚类算法应用于股票数据聚类,发现使用静态聚类结果的局限性,并证明基于知识重用的演化聚类算法能够抵抗短期噪声,得到鲁棒的聚类结果,为股票选股提供一定的借鉴作用。