当前位置:问答库>论文摘要

题目:基于聚类的基因选择算法和DPC聚类算法研究

关键词:特征选择;基因选择;数据降维;聚类;稳定子集;DPC聚类

  摘要


特征(基因)选择作为数据挖掘、模式识别等领域中的重要问题之一,其主要目的是:尽可能地保留或提高分类器的分类性能;加快分类器的训练速度和效率;使数据产生的过程更加清晰化。如今,大量含有高维特征信息的数据不断涌现,这些数据中含有许多冗余或与分类目标不相关的特征。由于这些特征的存在,一方面加剧了数据存储的难度,另一方面使样本间相似性的度量失效或变得很困难,导致分类或聚类结果的可信度降低。因此,特征选择算法研究成为当前的热点研究领域之一。通过有效的特征选择算法可以选择到能更好反映原始样本信息的特征子集。这样不仅降低了存储开销,而且提高了分类或聚类结果的精准度。

聚类是一种非常重要的认识和了解世界的方法,借助聚类人们可以从数据中发现知识、揭示隐藏的模式和规律,因此被广泛应用在科学数据分析以及工程系统等领域。近几年的研究工作表明,通过将聚类思想引入到特征选择的过程中,可以保证选择得到高质量的特征子集。因此,本文聚焦于将聚类与特征选择结合,并主要针对高维小样本的基因表达数据集,研究有效区分基因的选择方法。本文的主要创新工作有以下几点:

(1) 将高效快速的K-means聚类算法应用于基因选择,提出基于K-means和统计相关的混合基因选择算法。算法首先利用统计相关性过滤掉部分与分类不相关的基因;然后采用bootstrap方法对数据集进行划分,在训练集上对基因进行聚类;提出两种策略从每个类簇中选择出一个代表基因,所有代表基因组成被选基因子集;最后采用SVM分类器在3个基因数据集上验证提出的基于K-means聚类选择的基因子集的质量。相比于经典的算法如SVM-RFE,本文算法选择到高质量的相同被选基因子集规模所需时间仅为前者的4%,表明提出的算法能在较短时间内选择到有效的基因子集。

(2) 为了得到稳定的基因子集,提出集成的有效区分基因子集选择方法,将基于K-means聚类选择到的基因子集进行集成,选择高频出现的基因构成最终的被选择基因子集。该方法不仅提高基因选择算法的稳定性,而且提高了被选择基因子集的质量。3个基因数据集上的实验结果验证了提出的算法的有效性。

(3) 针对DPC算法存在的两个缺陷,设计出基于K近邻的新颖聚类算法KNN-DPC。算法定义了新的样本密度,采用DPC算法的决策图发现初始类簇中心,依次采用两种分配策略完成对剩余样本的划分。理论分析和对比实验表明: 本文提出的算法能快速、高效地发现任意形状和任意规模数据集的类簇中心, 并合理分配样本到相应的类簇, 揭示数据集样本的分布模式, 对噪音数据具有非常好的鲁棒性, 是一种非常有效的聚类算法。常用人工数据集、UCI数据集以及人脸数据库上的3个聚类性能评价准则(Acc,ARI,AMI)的指标值要高于DPC算法。