当前位置:问答库>论文摘要

题目:基于密度的聚类算法研究

关键词:聚类算法,密度,RPCL算法,K-means算法,K-medoids 算法;

  摘要


信息技术的快速发展,使得数据挖掘技术广泛应用在社会各个领域。对来自生活中的数据进行聚类分析成为众多学者研究的热点之一。聚类分析没有先验知识可循,通过数据自身的特点,把数据划分到不同的类中,是把物理或抽象的数据对象根据一定的相似性度量准则划分成若干类,同一个类的对象间具有较高的相似度,不同类的对象间相似度很小。聚类的主要方法有:基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法和基于模型的方法。
本文根据数据集中对象的自然分布信息,综合考虑数据对象在数据集中所处位置的因素,定义了数据对象的密度。将该密度应用在相关的聚类算法中,从而改进聚类算法的性能。本文所做的具体研究工作如下所示:
1. 原始的次胜者受罚竞争学习算法(Rival Penalized Competitive Learning,RPCL)忽略了数据集的几何结构对节点的权值调整的影响,魏立梅等提出的新RPCL算法中,在节点的权值调整时引入了密度,但是该密度的定义需要设置一些参数,带有主观性。将本文定义的密度引入RPCL算法的节点的权值调整过程中,提出了基于密度的改进RPCL算法,克服现有RPCL算法的缺陷。使用UCI机器学习数据库数据集以及随机生成带有噪音点的人工模拟数据集进行测试,证明本文提出的基于密度的改进RPCL算法优于原始的RPCL算法和新RPCL算法;提高了聚类的准确性,使聚类结果尽可能快地收敛到全局最优解;对噪音数据有很强的抗干扰性能。
2. 针对传统K-means聚类算法对初始聚类中心敏感,现有的初始聚类中心优化的相关算法缺乏客观性,本文提出一种基于优化初始聚类中心的K-means算法。该算法在密度定义的基础上,根据数据集的空间信息定义了数据的邻域;选择数据集中位于数据密集区且相距较远的数据对象作为初始聚类中心,然后运行K-means算法。使用UCI机器学习数据库数据集以及随机生成带有噪音点的人工模拟数据集进行测试,证明本文基于优化初始聚类中心的K-means算法具有很好的聚类效果,运行时间短,并且对噪音数据有很强的抗干扰性能。同时本文基于优化初始聚类中心的K-means算法的聚类性能优于传统的K-means算法和已有的相关K-means初始中心优化算法。
3. 针对K-means聚类算法需要事先给定聚类数目和聚类结果依赖于初始聚类中心的问题,借助次胜者受罚竞争学习算法(Rival Penalized Competitive Learning,RPCL) 来确定数据集的聚类数目和聚类初始中心;首先用基于密度的改进RPCL算法对数据集进行预处理,确定K-means算法所需要的聚类数目和初始聚类中心,再运行K-means算法,提出了基于改进RPCL的K-means聚类算法。采用UCI机器学习数据库数据集以及随机生成带有噪音点的人工模拟数据集进行测试,证明本文基于改进RPCL的K-means聚类算法具有很好的聚类效果,对噪音数据有很强的抗干扰性能。
4. 本文提出一种基于密度的改进K-medoids算法,在密度定义的基础上利用数据集的自然分布信息定义数据对象的邻域半径和相应邻域,选择数据集中位于数据密集区且相距较远的k个数据作为初始聚类中心,这样避免了快速K-medoids算法在选取初始中心点时有可能使得选择出的多个初始中心在同一类中的潜在缺陷。使用UCI机器学习数据库数据集以及随机生成带有噪音点的人工模拟数据集进行测试,表明本文提出的基于密度的改进K-medoids算法在短时间内有很好的聚类效果,且对噪音数据有很强的抗干扰性能,优于PAM算法和快速K-medoids算法。