当前位置:问答库>论文摘要

题目:特征重要性度量与选择方法研究

关键词:特征选择,支持向量机,评价准则,降维,聚类分析

  摘要


特征选择是数据预处理中的一种重要方法,它在模式识别、机器学习、数据挖掘等相关领域的研究和应用中有着重要的地位,是众多学者研究的热点。随着人们获取信息能力的提高,高维大规模数据集不断涌现,如文本数据分析、基因数据分析中的数据集,其维数通常都是几千、几万甚至更多。这就对我们进行数据处理提出了挑战。现阶段对高维数据集通常先对数据进行预处理,降低维数,然后再进行分析处理。因此,特征选择成为高维数据分析的首要和重要步骤。寻找能够处理大规模数据集,且准确性和运行效率等综合指标都比较好的特征选择算法成为研究的热点。本文对高维数据的特征选择算法做了相关的研究,提出几种特征重要性的度量方法,并利用这几种度量方法设计的相应的特征选择算法。UCI数据集上的实验验证了文中提出的特征重要性度量方法的有效性以及基于该特征重要性度量方法的特征选择算法的有效性。此外,文中对基于相关性和聚类分析的特征选择算法进行了初步研究,并在Colon数据集和Leukemia数据集上测试了该算法。本文的创新工作主要包括以下几个部分。
1. 介绍了利用支持向量机决策函数权向量在两分类情况下对特征重要性进行度量的方法,并将这种度量方法推广到了多分类问题情况下。将支持向量机决策函数权向量度量特征重要性的方法结合前向顺序搜索和后向顺序搜索策略设计了相关的特征选择算法。在UCI机器学习数据库的几个常用数据集上的实验验证了这种特征度量的有效性以及据此设计的特征选择算法的有效性。
2. 提出了使用分类器评价准则F-measure来衡量特征重要性的方法,并定义了几个新的度量方法用以衡量特征的重要性。并将这些度量方法分别与前向搜索、前向(后向)浮动搜索策略相结合,以支持向量机分类器的分类正确率作为特征子集的评价准则,设计出了几种相应的特征选择方法,使用UCI数据集上的常用数据对这几种特征选择算法进行了验证。
3. 提出了基于特征相关性和聚类分析的特征选择算法。该算法首先利用相关性删除一些冗余的、相关性小的特征,然后在剩余的特征上做聚类分析,选择出每个类簇中的一个特征代表其各自类簇。在高维基因数据Colon和Leukemia数据集上的实验证明了设计的特征选择算法的有效性。