● 摘要
机器视觉为计算机张开了一双认识世界的眼睛。人类是计算机的主要交互对象,用户主导的交互方式一直是机器视觉领域的研究热点。人脸表情及身份识别、手势姿态识别以及步态识别等人类行为感知手段作为人机和谐交互的前提,受到越来越多研究者的关注。各类优异的算法层出不穷,日新月异。利用机器视觉感知人类行为的主要瓶颈在于人类对自身特点认识不够全面,先验知识的不足限制了机器视觉在人机交互领域的发展。目前,以人脸作为对象的机器视觉研究主要存在如下不足:(1) 现有的心理生理学研究成果表明,面部的形状分布在高维空间的低维非线性流形中,基于线性方法的面部特征提取算法存在先天缺陷;(2) 流形学习作为一种特征提取以及数据降维手段方兴未艾,但基于几何特性的流形学习方法对数据分布密度有较高的要求,并且多数流形学习方法缺乏增量数据的处理手段;(3) 由于独立的静态图像无法反映运动序列的帧间信息,很难满足机器视觉的发展需要;(4)面部分析往往受到其它信息的干扰,表演者的身份、光照条件以及拍摄角度等对运动分析的影响不可忽视。身份信息作为主要的干扰,严重制约了面部运动分析研究的进展。针对上述问题,本文结合生理学、心理学以及人体工程学的研究成果,提出一种面部运动分析的思路。从静态图像的特征提取,序列特征表述到基于非线性流形学习的序列特征降维,描述了一种面部运动分析的框架。具体而言,本文的创新点包括:(1) 提出了一种基于非线性流形学习的面部特征点提取方法。该方法利用面部形状变化分布在低维非线性流形中的特点,采用局部线性嵌入算法对面部形状流形建模,改进主动外观模型,提高面部特征点的提取精度。(2) 利用面部运动序列的帧间信息,结合统计形状理论及黎曼几何切空间映射方法,在面部形状的切空间中得到一条对应面部运动的轨迹,并采用样条插值算法对该曲线进行拟合。动态反映面部的形状变化。(3) 提出一种基于隐变量空间模型的趋势保持模型,得到一种基于隐变量的流形学习方法。该模型通过趋势因子以及起点因子对隐变量进行约束,使不同身份表演者相同类型的运动序列具有相同的变化趋势,从而降低身份对面部运动分析的影响。(4) 结合趋势保持模型,提出趋势保持-高斯过程隐变量模型和趋势保持-核信息嵌入模型。并分别针对双人单表情、双人多表情及多人多表情等训练数据库得到对应面部运动的低维隐变量序列,进而采用隐马尔可夫模型分类面部运动中的表情。