当前位置:问答库>论文摘要

题目:非标定单目视频的运动内容理解技术研究

关键词:非标定单目视频;运动内容理解;视频运动分割;人体动作探测;运动恢复非刚体三维结构

  摘要


随着便携式相机和可拍照智能手机的普及,以及社交网络、视频分享网站等传播媒介的快速发展,视频已经越来越广泛地融入了人们的生活并改变着人类的生活方式。本文主要关注由没有事先标定的单个彩色相机拍摄而成的视频,简称为非标定单目视频。面对海量且易得的视频数据,让计算机理解视频中的内容,以贴近人类感知的方式对视频内容进行解析显得尤为重要,是当前计算机视觉相关领域的研究热点。本文围绕非标定单目视频的运动内容理解展开研究,以视频运动分割、人体动作探测和运动恢复非刚体三维结构为研究重点,主要研究工作包括:

1. 提出了一种基于轨迹时间平滑性的视频运动分割算法。视频运动信息具有时间平滑性,现有的运动分割算法没有对该性质进行建模,影响了算法的抗干扰能力。本文给出了一个时间平滑约束的轨迹特征空间变换算法,将输入轨迹投影到离散余弦变换(DCT)域,从中抽取出有效的运动信息,降低了低质量输入对运动分割精度的影响。进一步根据前景轨迹和背景轨迹的不同空间分布特点,给出了一个两阶段聚类算法,将运动子空间假设和平移运动模型组合起来对输入轨迹在DCT域中的低维表示进行聚类,并根据聚类结果对视频内容进行运动分割。在运动分割领域最主要的Hopkins和Berkeley数据集上,本算法较现有算法将运动分割精度分别平均提高了33%和6%,在低质量情况下优势更为明显。

2. 提出了一种可自动标注目标时空范围的人体动作探测算法。不同于现有人体动作探测算法依赖手动标注目标包围盒进行学习,本文提出以弱监督方式对正样本中指定人体动作的时间和空间范围进行学习,可以避免冗长的手动标注,并达到像素级定位精度。本文选择稠密特征点轨迹作为局部时空特征来表示视频中的人体动作,给出一个基于分割-合并策略的分析方法对视频内容进行预处理,设计了一个潜变量SVM模型,通过迭代优化同时完成SVM模型的训练和目标时空范围的学习。相比现有在训练阶段需要手动标注的算法,本算法不但避免了大量的手工工作量,而且在UCF-Sports数据集上将人体动作识别精度和人体动作定位精度分别平均提高了18.0%和22.3%;在HOHA数据集上将人体动作识别精度和人体动作定位精度分别平均提高了10.4%和18.4%。

3. 提出了一种支持退化变形处理的运动恢复非刚体三维结构算法(NRSfM)。现有NRSfM算法大多基于非退化假设,在对现实世界中大量存在的退化变形进行描述和处理时,秩的扩大会在矩阵分解和三维重建的过程中引入误差。本文给出了一个低秩形状变形模型,利用非刚性变形表面的内在低秩性和运动平滑性将其三维结构分解为平均形状分量和变形分量,通过分析退化变形的秩亏性将变形分量分解为一组一维变形基的线性组合。在该模型基础上,本文依次给出两个非线性迭代优化算法来估计非刚体和相机的相对旋转以及该物体的平均形状、变形基和变形系数,从而恢复出非刚性变形表面的三维结构和姿态。实验结果表明本算法与现有算法相比在对退化变形进行三维重建时将三维结构恢复误差平均降低了19.4%,将相机运动恢复误差平均降低了6.9%。

论文从区域、分类、三维结构三个从低到高的层次上对非标定单目视频的运动内容进行理解,主要研究思路是通过分析视频中目标区域的时空特征来提高视频运动内容理解的质量和抗干扰能力。论文的主要研究可应用于视频运动解析、三维场景重构、多媒体内容检索和动态场景理解等领域。