当前位置:问答库>论文摘要

题目:支持向量机的特征选择方法及其应用

关键词:支持向量机,多重共线性,Fisher判别法,主成分分析,Gram-Schmidt正交化

  摘要

支持向量机(Support Vector Machine,缩写为SVM)是数据挖掘的一项技术,是借助于最优化方法来解决机器学习问题的工具,主要应用于分类和回归问题。它是一种有坚实理论基础的新颖的小样本学习方法,避开了从归纳到演绎的传统过程,从有限的训练样本中归纳出“最优函数规律”,尽可能准确地对未知样本做出预测。SVM已成为机器学习领域的一个研究热点,成为克服“维数灾难”和“过学习”等困难的有力手段。在SVM的应用研究中,多元变量间的共线性问题是相当普遍的。如果变量间存在较强的共线性,则可能降低SVM分类模型的预报精确度。因此需要有效的进行特征选择,减少变量之间多重共线性的危害。本文系统地介绍了目前常用的两类特征选择方法:过滤法和封装法。过滤法是在训练分类器之前,用Fisher判别分析法,主成分分析等方法对样本进行预处理,目的是找到能够更简单、鲁棒的表达目标模式的特征集,并且这种特征集能够提供更具有判别力的信息。但这种处理没有涉及分类器的实际分类性能。封装法是首先根据一定的方法确定一个特征子集,然后用这个特征子集来训练分类器,并使用一定的方法来估计这时分类器的性能,根据每个特征子集对应的分类性能来得到最优最终的特征子集。这些方法的使用虽然提取出了判别力强的特征,但是很多情况下提取后的变量之间仍存在一定的相关性,并没有完全解决变量间多重共线性的问题。本文针对上述问题,提出了基于Gram-Schmidt过程的特征选择方法。该方法利用Gram-Schmidt正交化过程,在特征集合中选择判别力强的信息,并把挑选出来的特征集合变换成若干直交变量。这样不仅可以实现判别模型的变量筛选,同时也解决了多重共线性对判别模型的影响这一问题。该方法无需样本分布假设,变量筛选与判别过程完全自动化,应用到美国乳癌数据实际案例中,取得了很好的效果。