● 摘要
基于统计机器学习的微阵列分类是后基因时代的热门研究方向之一,并在过去十几年中取得了丰硕的研究成果。随着研究深入而涌现出来的群体基因选择、多正则化参数选择、快速求解等问题给统计学习理论提出了新的挑战。本文以自适应的思想为指导,通过发展新型统计学习机器和正则化解路算法来解决这些挑战。 本文的主要贡献包括: (1).提出LARS型自适应弹性网络,并改进了LARS算法。该学习机器既能在基因选择过程中激励一种自适应群体效应,又能消除增广空间中的大量冗余观测子,从而大大减少了LARS算法的计算复杂性。此外,该学习机器还能减少重要基因对应系数的收缩偏好,取得较好的统计学性能。特别地,通过选择合适的初始估计子,可以取得变量选择的一致性和估计的渐近正态性。 (2).提出PCD型自适应弹性网络,并发展了顺向坐标下降算法。该学习机器除了具有(1)的所有性质之外,还有以下两个优点。一、被赋予的权重仅在一个有限区间内变化,减少了初始估计子误分基因对学习性能的影响;二、采用梯度下降算法求解,大大提高了运算速度。 (3).提出自适应huberized支持向量机,并研究了lambda_2沿解路方向随lambda_1按解路事件阶梯式下降的函数关系。该学习机器不仅保持了自适应弹性网络方法的优点,还为发展更有效的模型选择方法和学习算法提供了帮助。特别地,基于lambda_2和lambda_1的合理关系,证明了该学习机器的系数关于正则化参数lambda_1是分段线性的,并给出了其具体的表达形式,发展了有效的解路算法。 (4).提出huberized多类支持向量机,并研究了其基因选择和计算性能。该学习机器能在多类基因选择过程中激励一种群体效应。这种多类基因选择的群体效应被首次用数学语言准确刻画,并给出了其合理的生物学解释。此外,该多类支持向量机的系数也被证明关于正则化参数lambda_1是分段线性的,并基于此发展了有效的解路算法。 (5). 提出自适应huberized多类支持向量机,并研究了其性能。该学习机器不仅具有huberized多类支持向量机的计算性能,而且能通过评估基因对多类分类器的整体重要性,激励一种自适应群体基因选择效应。