当前位置:问答库>论文摘要

题目:对交互特征和自适应聚类算法的研究

关键词:特征选择,维归约,特征交互,一致性度量,线性判别分析,二分K 均值

  摘要

数据生成、收集和存储技术的高速进步使得人们可以收集到海量的数据。随着这些数据复杂程度的提高,需要处理的特征维数越来越高。而在数据挖掘中,这些高维的数据也造成了“维灾难”问题。一般地,有两种方法来避免和解决这一问题。一种是特征选择(Feature Selection),另一种是通过组合原有特征来构建新的特征从而达到降维的目的,这种方法称为维归约(Dimensionality Reduction)。维归约又称为特征抽取(Feature Extraction)。本文开头简单地讨论了特征选择和维归约技术的研究现状,基本理论和方法,而具体的工作主要有一下几点:
(1)讨论了特征交互在数据挖掘中的重要性。首先,对什么是特征交互进行了定义。接着,说明了特征交互在数据挖掘中对其它各个问题的影响及其关键地位。这些问题包括对目标概念的学习,对碎片问题的处理,对辛普森悖论的检测和对设计规则归纳算法的影响。更好的理解特征交互可以帮助大家更好地理解这些问题之间的关系。同时也认识到贪心的规则归纳算法不能有效处理交互特征的这一事实。
(2)设计了一个能对高维数据进行降维处理并同时能间接处理特征交互的方法。在特征子集的选择过程中,利用了一个特殊的数据结构来对特征进行评估,并采用了一个特征排序机制来有效地发现特征交互。通过实验,将该方法的性能与其他具有代表性的特性选择算法的性能进行了比较。基于现实数据集的实验结果证明了这个方法的有效性。
(3)将线性判别分析和二分K均值聚类耦合在一起,提出了一个适合于高维数据聚类的自适应方法。该算法利用线性判别分析将高维数据集变换成低维数据集,然后在低维数据集上执行二分K均值聚类,并把得到的聚类结果通过一个簇成员指示矩阵H变换到原数据集中。这样的过程反复进行,直到自适应地得到一个最优结果。基于现实数据集的实验结果证明了这个方法的有效性。