当前位置:问答库>论文摘要

题目:基于运动库的视频人体动作识别

关键词:运动库;运动分割;运动分类;逻辑相似性;动作识别;角度无关性;动作图;时空兴趣点

  摘要

视频中人体动作识别是计算机视觉中一个重要的研究方向,本论文依托于国家科技攻关计划项目“2008年北京奥运会开(闭)幕式创意仿真支撑平台及逼真演示环境”,展开视频中人体视角无关的动作识别研究,利用图形动画领域广泛使用的运动捕获数据,建立用于训练动作识别模型的三维运动库,为不同视角的视频之间建立内在的关联。论文主要包括两个研究主题和四个研究内容:研究主题一:运动库的建立。输入为连续的三维运动捕获数据,输出为按动作类别分类的运动库,主要涉及两个研究难点:第一个是连续运动数据的分割,需要将数据分割为各个独立的动作片段;第二个研究难点是将独立的动作片段自动进行类别聚类,使同类别数据聚在一起。针对这两个难点,本文展开了相应的研究,提出了基于运动串分割算法和基于DTW曲线分类算法,具体描述如下:(1)基于运动串的数据分割。包含多个动作类型的运动捕获数据可以用于运动合成和检索,但却不便于运动分析和训练动作识别模型,因此需要将捕获数据分割为多个片段,使每个片段仅包含单一动作。本文提出运动串的概念,经过线性/非线性降维、聚类、时序恢复和最大值滤波后,三维运动捕获将转换为一维的运动串表示,该表示可以用于运动分割和检索等。此外由于运动串的本质是字符串,因此可以将字符串研究成果引入到运动分析中,采用字符串操作(例如后缀树等)分析运动串,从中提取静态子串和周期子串,从而确定运动捕获数据的分割点,完成数据分割。(2)基于DTW曲线的动作分类。为了训练视频中的动作识别模型,需要进一步将各个三维动作片段进行分类,使相同动作类别的片段聚为一类,该过程称为动作分类。动作分类的核心问题是运动片段相似性定义,目前包括数值相似和逻辑相似两类。数值相似是指两个运动序列在数值上的相似程度,逻辑相似是指符合人们对运动序列主观理解的程度,同一动作类别的运动片段往往具有较好的逻辑相似性,而不一定具有较好的数值相似性。本论文在DTW距离度量的基础上,提出双向DTW和分段DTW两种策略来放宽DTW的约束条件,基于这两种策略提出DTW曲线(DTW-Curve)的相似性评价方法,并应用于无监督动作分类中。与基于DTW分类算法相比,基于DTW曲线的分类算法具有更高的分类鲁棒性,可以得到更加接近人工分类的结果。研究主题二:视频中视角无关的人体动作识别。由于运动库中的数据为人体三维动作序列,因此可以利用运动库弥补视频缺少自由度而引起的深度歧义等问题,使视频中视角无关的动作识别成为可能。该主题有两个研究难点,第一个是视频中人体运动特征的表示,需要选择一种鲁棒性较高的描述方法;第二个难点是运动库的使用,需要将从视频中提取的特征和三维运动库有机结合。本文提出了两种识别算法,具体描述如下:(1)基于兴趣点识别算法。由于局部兴趣点具有较好的旋转、平移和缩放等不变性,可有效降低复杂背景、人体形状和相机等带来的影响,因此采用局部兴趣点描述视频中的人体运动,并基于兴趣点提出了双层分类模型,第一层为视角聚类,将每个动作类别分为多个子类,使每一子类的视频具有相似的视角;第二层为贝叶斯分类,采用Naïve Bayes为每个子类训练一个概率模型,然后根据这些子类概率模型生成该运动类别的分类器,从而识别任意视角的视频数据。双层分类模型对运动库的依赖性较小,运动库仅用于向各个方向投影生成训练视频。(2)基于动作图识别算法。在局部兴趣点的基础上,引入人体轮廓的描述方法,将视频中的局部兴趣点特征和全局形状描述结合在一起,既具有兴趣点抗噪声强的优点,又可避免兴趣点无法识别静态动作的缺点。在此基础上提出基于动作图的识别模型,将动作数据分割为多个基本运动单元,将基本运动单元看做节点,形成的有向图称为本质图,本质图向各个方向投影,并建立节点间的跳转关系后构成动作图,动作图识别模型具有多角度投影和投影平滑过渡等特点,可识别任意视角的视频序列。