当前位置:问答库>论文摘要

题目:适于K-均值算法的聚类评价指标有效性研究

关键词:聚类分析;K-均值算法;均匀化效应;聚类评价指标

  摘要

随着电子商务、信息检索的快速发展,数据挖掘已经成为商务智能的核心技术之一。聚类分析作为数据挖掘的一个重要子领域,可为后续的数据分析提供重要起点。K-均值算法是一类基于原型的聚类算法,因其具有简单、高效、鲁棒、数据适应性强等特点,使之成为聚类分析中使用最为频繁的算法之一。已有研究表明,K-均值算法存在“均匀化效应”。即对于各类样本数量高度有偏的数据集, K-均值聚类容易产生较为均匀的簇,从而偏离样本的真实分布。这意味着K-均值聚类在这类数据上的聚类效果通常不佳。由于聚类效果由聚类评价指标评定,因此一个伴随的重要问题是,被广泛使用的聚类评价指标是否能有效揭示K-均值算法的“均匀化效应”?这对于K-均值聚类实践无疑是至关重要的。为了解答这个问题,本文对适于K-均值算法的聚类评价指标有效性问题进行了研究。首先,我们选择聚类评价中被广泛采用的8个指标作为研究对象,以能否反映“均匀化效应”作为指标筛选原则,淘汰了部分具有缺陷的指标。接着,为使指标可以对不同数据集上的聚类结果进行比较,对通过筛选的指标提出了一系列标准化处理方案,并基于DCV筛选原则再次进行筛选,最终得到了能够有效反映“均匀化效应”的、经标准化处理的评价指标。最后,我们研究了上述有效指标的主要性质及相互关系,并给出了如何选择适当的K-均值算法评价指标的建议。