当前位置:问答库>论文摘要

题目:游程检验与K-S检验在基因选择中的应用研究

关键词:基因选择;游程检验;K-S检验;mRMR;支持向量机

  摘要


基因芯片技术可以一次性对大量DNA序列进行检测,从而获得基因表达谱数据。从包含成千上万基因的表达谱数据中挖掘出能够辨别肿瘤样本和正常样本的关键基因已成为21世纪医疗、生物信息学以及人工智能等领域的研究焦点之一。基因数据属于典型的高维小样本数据,常含有大量噪声和冗余基因,而真正导致肿瘤病发的关键基因所占比例非常小,从而给基因选择技术带来巨大挑战。一个具有显著区分能力的基因,其表达水平在不同类别中一定存在着显著差异,基于该思想,许多学者提出了一系列基于非参数统计和参数统计的Filter型基因选择方法,并取得了良好的效果。本文针对已有的基于统计检验的基因选择方法中存在的不足,提出了游程检验方法实现特征基因选择。然而,独立的非参数检验方法在选择具有区分能力的基因时,没有考虑到基因之间的冗余,因此,进一步提出K-S检验与mRMR相结合的基因选择算法。本文主要创新工作如下:
(1) 针对已有的秩和检验以及T检验等统计检验方法存在的不足,提出游程检验实现基因选择。3个经典基因数据集上的实验表明,与秩和检验、T检验相比,在给定显著性水平下,游程检验选择到的基因子集规模较小,且分类性能优于秩和检验与T检验,说明游程检验算法是一个有效的基因选择算法。
(2) 针对独立的非参数检验方法在选择具有区分能力的基因时,没有考虑到基因之间的冗余,提出一种基于K-S检验与最小冗余最大相关(Minimum Redundancy-Maximum Relevance,mRMR)原则的基因选择算法。算法分两步进行,先采用K-S检验选出具有一定区分能力的基因,然后对选择到的基因进行mRMR判断,选择与类别高度相关而其间相关性较小的基因构成基因子集。以SVM为分类器,以F1_measure、准确率和AUC值为评价指标对选择到的基因子集进行评估。将本文算法与K-S检验、mRMR,以及经典的RELIEF和FAST算法进行对比,分别在5个经典基因数据集上的10次重复实验的平均实验结果表明,本文算法的运行时间远低于mRMR,其F1_measure、准确率和AUC 3种评价指标值优于其他比较算法。