● 摘要
机器学习是人工智能研究领域的一个重要组成部分,它主要研究如何让机器模拟人类的学习能力这样一个问题.本文考虑监督学习, 即对应于每个输入机器的数据有一个标号.如果标号取离散值, 称为分类问题; 如果标号取实值, 则称为回归问题.利用这些经验数据对, 机器寻找内在的关系, 对未知数据进行预测.统计学习理论为机器学习提供了理论基础.它为用于处理两类学习问题的算法具有好的推广性能提供了条件和保证.本文的主要工作以及创新之处在于:1. 针对二分类问题, 提出了关于一般的凸损失函数的随机梯度下降学习算法.当样本数很大时, 该算法较已有的学习算法具有一定的计算优势.在对假设空间和未知的概率测度进行合理的假定条件下,证明了该算法得到的分类器对Bayes决策具有很好的逼近效果,且学习速度比相关算法的要快.2. 对于高维大数据集, 提出学习回归函数的梯度的随机梯度下降算法,该算法提高了已有算法的计算效率.利用算法所得函数能同时对高维数据进行特征变量选择和变量协方差分析.利用采样算子, 积分算子以及关于随机向量的 McDiarmid-Bernstein型概率不等式, 建立了该算法的学习速度.3. 利用求解两类学习问题的算法自身的性质之一, 即算法稳定性,研究了算法所得函数的推广性能. 在算法具有联合稳定性性质时,所得函数的排一推广误差具有收敛速度 ${cal O}(frac{1}{sqrt{m}})$.这个结果改进和加强了已有的结果.