● 摘要
机器学习是近些年来兴起的一门多领域交叉学科,基于数据的机器学习是计算机科学、统计学等学科的一个重要研究领域。随着科学技术的迅速发展,我们在收集和存储计算能力等方面有了提升,然而,研究的问题变得更复杂,涉及的领域也更宽广,需要处理的数据量的维数也变得越大,而且数据呈现函数特征。因此,运用函数型数据的分析方法研究问题是很有必要的,随着在线收集数据和非参数技术的发展,函数数据分析成为现代统计学研究的一个热门领域,在金融、生物、医学等方面有着广泛的应用。与经典的统计方法相比,函数型数据分析方法处于初始阶段,有着广泛的应用前景。
本论文主要研究了三个方面的问题:支持向量机排序,基于随机投影的回归估计以及相互近邻域的回归估计。
首先,针对指数强混合型数据,我们提出了支持向量机排序算法。论文构首先构建了一个由反对称函数组成空间 ${cal H}^{
m as}$,然后根据给定排序规则进行了支持向量机排序。近年来,在机器学习研究方面,排序问题得到了越来越多的关注。它不同于简单的分类,二元素对比排序是现代机器学习领域中一个普通存在问题。在本章中,我们对指数强混合型数据进行了 $ell^{1}$ 范数支持向量机排序,$ell^{1}$ 范数学习问题通常产生稀疏表示,在一些温和的条件下,我们得到了一个支持向量机排序的学习率。
其次,针对独立同分布样本,我们提出了基于随机投影的学习算法。在统计分析中,随着数据维数的增长,分析数据的难度也呈指数型增长,这就是人们常说的``hspace{0.5ex}维数灾难hspace{0.5ex}"hspace{0.5ex}。因而降维是一个十分重要的课题。而函数型数据分析可以处理无穷维空间的曲线数据,挖掘更多的数据信息,因此,进行函数型数据分析是合理有效的。本文采用随机投影的方法对高维空间中的数据进行降维处理,将高维空间的数据降到低维空间中,然后结合经典的最近$k-$邻域回归模型,对数据进行分析,并证得基于随机投影的最近$k-$邻域算法的相容性。
第三,针对独立同分布样本,我们研究了相互近邻域回归估计的相容性。与最近$k-$邻域不同的是:尽管相互近邻域的方法会增加一定的计算复杂度,但是它能得到比最近$k-$邻域更好的估计效果。对于希尔伯特空间中的数据,由于其维数是无穷的,我们不得不进行降维处理。本文采用了另外一种降维方法,具体如下:令 $mathcal{H}$ 为可分的希尔伯特空间,$X$ 为取值在 $mathcal{H}$ 上的随机变量且 $Y$ 为实值随机变量。通过对每个 $X_{i}$ 进行傅里叶级数展开,利用其前 $d$ 项近似 $X_{i}$。从而将无穷维降到有限维,进而证明了相互近邻域回归估计的相容性,其中维数和邻域数都是从观察样本中自动选取的。
相关内容
相关标签