当前位置:问答库>论文摘要

题目:基于遗传算法的混合特征选择方法研究

关键词:特征选择,分类,互信息,遗传算法,混合方法

  摘要

在模式识别、统计学、机器学习和数据挖掘等许多学科,特征选择一直都是一个活跃的研究方向,且在文本分类、图像检索、客户关系管理、入侵检测和基因组分析等中都有非常广泛的应用。特征选择的主要思想是:通过消除具有很少或根本没有预测信息能力的特征,选择输入变量的子集。特征选择可以明显地提高所产生的分类模型的可理解性,并通常能有助于建立一个对未知数据具有较好泛化能力的模型。 本文首先较全面地阐述了特征选择的理论基础和基本步骤,随后简介了一种随机化搜索方法——遗传算法。基于不同的评估准则,特征选择可被划分为过滤模式和封装模式。为了将遗传算法和标准化互信息的特征选择算法的优点充分地利用起来,本文提出了一种基于标准化互信息和遗传算法的两阶段特征选择方法。其中基于标准化互信息的特征排序算法是一种过滤式特征选择方法。该方法首先采用标准化互信息对特征进行排序,然后使用排序在前面的特征初始化第二阶段遗传算法的部分种群,使得遗传算法的初始种群中包含一些较优良的个体,从而遗传算法仅仅需要较少的时间就可以得到令人满意的结果。该算法包括一个初始化过程和自适应的交叉、变异操作。实验结果表明,可以获得一个约减的较小特征集合来实现相等的或更高的预测精度,并且运行该算法所花费的时间较少。 通过移除冗余、不相关和噪音特征,特征选择可以改进预测准确性和分类器(预测模型)的可理解性。许多采取不同搜索策略的特征选择方法已经得到了应用。然而,却发现没有任何单个准则适合于所有的应用。为此,本文提出了一种基于遗传算法的混合选择框架,该框架能将多种现存的选择方法有机地联合起来。该算法的优点包括:1)可以容纳多个特征选择标准,从不同的标准评价特征;2)该方法可以找到较小的特征子集并且在特定学习算法的分类器上运行效果较好。在实验中,使用三个现存的特征选择方法,用遗传算法将这些基于不同准则的方法有机地结合起来,以达到较好的特征选择效果。实验结果表明,比起单个选择方法,该方法在分类精度和特征约减方面是有成效的。 文末,汇总全文工作,并对未来研究工作进行了初步展望。