当前位置:问答库>论文摘要

题目:基于粒度计算的划分式聚类算法研究

关键词:K-means聚类,K-medoids聚类,粒度计算,等价关系,聚类指标

  摘要


粒度计算(Granular Computing)的思想产生于20世纪70年代,它是一种新的、智能的、计算的新方法,采用模拟人类思考问题的方式,来解决复杂的问题。张钹院士和张铃教授曾这样描述:“人类智能的公认特点,就是人们能够从极不相同的粒度层面上来观察和分析同一个问题。人们不仅能在不同粒度 (granularity)世界进行问题的求解,而且能够很快地从一个粒度世界跳到另一个粒度世界,往返自如,毫无困难。这种处理不同粒度世界问题的能力,正是人类问题求解的强有力的表现。”粒计算涵盖了全部的有关粒度的理论、方法和技术,是用来解决复杂的、非结构化的、不精确的、不完整的和不确定的知识的新方法,它现在已经成为了人工智能领域研究的热点之一。
数据挖掘是从大量的数据中提取出隐藏在其中的、比较新颖的、对问题的处理有用的信息的高级处理过程,其在各个领域的发展和应用现阶段已经逐渐的走向了成熟。聚类分析是数据挖掘领域中的一个重要研究方面,它具有无监督自发式学习的特点。聚类(C1ustering)通过观察式的学习模式,可以把一组样本或者对象通过某种事先设定好的方式,自动的划分成多个类簇,使得本身位于同一类簇中的对象之间的相似性较高,而本身处于不同类簇中的对象的相似性较低。聚类分析现阶段已被广泛的使用在文本分类、金融系统分析与评价、数据评估、市场调查研究与分析等领域。
传统的聚类算法主要分为五类:划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法。其中最简单常用的是划分方法。基于划分的聚类算法主要有K-means聚类算法和K-medoids聚类算法。这两种算法使用简单、便捷,并且计算速度快,常被作为大样本数据集聚类分析的首选方案。但是其算法均依赖于初始中心的选取,且在实际应用中K值需要事先确定,因而具有局限性。
聚类分析和粒度计算在其本质上具有相通性。目前为止,粒度计算在数据挖掘领域的应用主要集中在分类算法和关联规则算法中,而关于聚类算法的研究则很少。如何将粒度计算与聚类分析结合起来目前仍处于起步阶段,尚未形成一个真正系统且完整的理论框架。本文阐述了聚类分析和粒度计算的概况,将粒度计算的思想引入聚类算法,在基于粒度计算的聚类研究方面做了一些相关的工作,试图分别解决基于划分的聚类算法初始聚类中心的选取问题和K值的确定问题。提出了基于粒度计算和改进全局K-means的聚类算法、基于粒度计算的K-medoids聚类算法和基于样本分布密度和粒计算的改进聚类算法,通过实验进行仿真实现,证明了算法的有效性。从一个新的角度分析和研究了聚类问题,给出了新的算法和思路。