当前位置：问答库＞论文摘要

题目：基于运动库的视频人体动作识别

关键词：运动库;运动分割;运动分类;逻辑相似性;动作识别;角度无关性;动作图;时空兴趣点

● 摘要

视频中人体动作识别是计算机视觉中一个重要的研究方向，本论文依托于国家科技攻关计划项目“2008年北京奥运会开（闭）幕式创意仿真支撑平台及逼真演示环境”，展开视频中人体视角无关的动作识别研究，利用图形动画领域广泛使用的运动捕获数据，建立用于训练动作识别模型的三维运动库，为不同视角的视频之间建立内在的关联。论文主要包括两个研究主题和四个研究内容：研究主题一：运动库的建立。输入为连续的三维运动捕获数据，输出为按动作类别分类的运动库，主要涉及两个研究难点：第一个是连续运动数据的分割，需要将数据分割为各个独立的动作片段；第二个研究难点是将独立的动作片段自动进行类别聚类，使同类别数据聚在一起。针对这两个难点，本文展开了相应的研究，提出了基于运动串分割算法和基于DTW曲线分类算法，具体描述如下：（1）基于运动串的数据分割。包含多个动作类型的运动捕获数据可以用于运动合成和检索，但却不便于运动分析和训练动作识别模型，因此需要将捕获数据分割为多个片段，使每个片段仅包含单一动作。本文提出运动串的概念，经过线性/非线性降维、聚类、时序恢复和最大值滤波后，三维运动捕获将转换为一维的运动串表示，该表示可以用于运动分割和检索等。此外由于运动串的本质是字符串，因此可以将字符串研究成果引入到运动分析中，采用字符串操作（例如后缀树等）分析运动串，从中提取静态子串和周期子串，从而确定运动捕获数据的分割点，完成数据分割。（2）基于DTW曲线的动作分类。为了训练视频中的动作识别模型，需要进一步将各个三维动作片段进行分类，使相同动作类别的片段聚为一类，该过程称为动作分类。动作分类的核心问题是运动片段相似性定义，目前包括数值相似和逻辑相似两类。数值相似是指两个运动序列在数值上的相似程度，逻辑相似是指符合人们对运动序列主观理解的程度，同一动作类别的运动片段往往具有较好的逻辑相似性，而不一定具有较好的数值相似性。本论文在DTW距离度量的基础上，提出双向DTW和分段DTW两种策略来放宽DTW的约束条件，基于这两种策略提出DTW曲线（DTW-Curve）的相似性评价方法，并应用于无监督动作分类中。与基于DTW分类算法相比，基于DTW曲线的分类算法具有更高的分类鲁棒性，可以得到更加接近人工分类的结果。研究主题二：视频中视角无关的人体动作识别。由于运动库中的数据为人体三维动作序列，因此可以利用运动库弥补视频缺少自由度而引起的深度歧义等问题，使视频中视角无关的动作识别成为可能。该主题有两个研究难点，第一个是视频中人体运动特征的表示，需要选择一种鲁棒性较高的描述方法；第二个难点是运动库的使用，需要将从视频中提取的特征和三维运动库有机结合。本文提出了两种识别算法，具体描述如下：（1）基于兴趣点识别算法。由于局部兴趣点具有较好的旋转、平移和缩放等不变性，可有效降低复杂背景、人体形状和相机等带来的影响，因此采用局部兴趣点描述视频中的人体运动，并基于兴趣点提出了双层分类模型，第一层为视角聚类，将每个动作类别分为多个子类，使每一子类的视频具有相似的视角；第二层为贝叶斯分类，采用Naïve Bayes为每个子类训练一个概率模型，然后根据这些子类概率模型生成该运动类别的分类器，从而识别任意视角的视频数据。双层分类模型对运动库的依赖性较小，运动库仅用于向各个方向投影生成训练视频。（2）基于动作图识别算法。在局部兴趣点的基础上，引入人体轮廓的描述方法，将视频中的局部兴趣点特征和全局形状描述结合在一起，既具有兴趣点抗噪声强的优点，又可避免兴趣点无法识别静态动作的缺点。在此基础上提出基于动作图的识别模型，将动作数据分割为多个基本运动单元，将基本运动单元看做节点，形成的有向图称为本质图，本质图向各个方向投影，并建立节点间的跳转关系后构成动作图，动作图识别模型具有多角度投影和投影平滑过渡等特点，可识别任意视角的视频序列。

当前位置：问答库＞论文摘要

题目：基于运动库的视频人体动作识别

相关题目: