当前位置:问答库>论文摘要

题目:基于流形学习的等距映射算法研究

关键词:流形学习;等距映射;测地距离;邻域图

  摘要


  随着息爆炸时代的到来,人们对于大数据处理有了前所未有的需求。如何在大量的数据中提取出满足人们需要的有效数据成为急需解决的问题。流形学习就是从高维空间的采样数据中恢复出低维流形结构,即找到高维数据的低维流形表示,可以实现维数约简和数据可视化 ,这就达到了在保持信息完整性的同时满足人们从观测到的表面现象中去寻找事物的本质,找到数据的内在规律,在现实中大部分的高维观测数据的变量可以简化成几个低维变量因子来表示,而且这几个变量因子通常有很强的相关性,对高维数据进行降维处理就是要从大量数据中找出需要的本质特征,这样就可以很好对数据进行分析和处理。

    流形学习方法是模式识别的基本方法,有很多经典的算法,其中等距映射(Isomap)是代表性算法之一,是由Josh Tenenbaum开创的数据处理的新课题。这种方法是建立在多维尺度分析之上,为了寻求保护数据内在的几何结构的算法,用微分几何中的测地线距离来替代传统的欧氏距离来计算高维流形中数据点的距离,等距映射(Isomap)的成功取决于能否选择合适的邻域大小。自Josh Tenenbaum在Science杂志上提出以来,流形学习的发展进入了一个突飞猛进的时代,在这之后产生了很多流形学习算法,根据他们的所保持几何特性的不同,把这些方法分为全局特性保持法和局部特性保持法。全局特性保持法旨在保持高维观测空间数据的内在低维嵌入流形的全局几何特征,然后构造所有数据点基于全局的矩阵,通过把全局矩阵转化为内积矩阵,然后对其特征分解就得到数据集的低维嵌入表示。局部特性保持方法旨在保持流形局部几何特征,建立高维观测数据与内在低维空间的联系,然后整合所有局部几何模型,以构造全局唯一低维坐标。越来越多的流形算法的出现,使得应用面变得越来越广,更加受到研究人员的关注和重视。

    本文通过对流形学习相关的情况进行了介绍,描述了流形学习的一些主流算法,并对这些算法进行了实验的对比,尤其对等距映射算法做了详细的算法和实验的分析,基于这些分析总结了等距映射算法的缺点,如拓扑稳定性不高,噪声的鲁棒性差,然后对这两个缺点提出了一种改进的等距映射算法,旨在通过确定观测数据合适的邻域图来提高拓扑稳定性和噪声容限,该算法引进了邻域图的平均最短距离和相应的平均最短距离梯度。在邻域尺寸增加时,根据平均最短距离的减小情况,构建两个关键邻域图,然后合成这两个邻域图就可以得到一个合适的邻域图,通过这种方法构造出的邻域图可以很好的反映真实的低维流形结构。实验结果显示的拓扑稳定性和噪声的鲁棒性可以显著提高。本文的的算法自适应地为数据集的每个数据点根据其结构确定一个合适的邻域大小,可以用在人工数据集合和实际的数据集合中,有很好的效果。

关键词:流形学习,等距映射,测地距离,邻域图