当前位置:问答库>论文摘要

题目:基于三维人体关节数据的人体运动识别研究

关键词:人体运动识别;动作识别;深度图像;人体关节数据;局域性约束线性编码;稀疏编码

  摘要


人体运动识别一直是计算机视觉与模式识别的研究热点,研究实用的识别算法具有重要意义。但是由于人体运动模式较为复杂,同类数据的类内差异较大,算法模型通常较为复杂,实用性较差,因此研究兼顾识别率和实用性的方法一直是运动识别领域的难点。此外,对连续动作的识别方法具有更好的应用价值,但是由于连续动作中难以得到动作的起止时间,因此难度较大。本文针对上述问题,基于由深度图像中获得的三维人体关节数据,研究了人体动作识别方法,主要工作如下:

1. 针对动作特征类内差异较大,以及当前算法在计算复杂度方面的不足,提出一种基于局域性约束线性编码的人体动作识别方法。采用局域性约束线性编码对局部动作特征求解稀疏表达,从而减小特征的类内差异,增强区别力;由于编码方法具有解析解,方法处理视频速度可达760帧/秒。

2. 为提高方法的可扩展性,对局域性约束线性编码的词典学习方法进行改进,由K-means分别对每类数据学习得到的子词典组成,使算法在扩展可识别动作类别时无需全局优化。此外,为了避免词典较大情况下分类器的过拟合现象,利用词典基向量类别对编码系数进行降维。在使用深度摄像机获得的MSR-Action3D数据库上对所提出的方法进行验证,取得了85.7%的识别率。

3. 为解决连续动作视频中动作的起止时间未知情况下的识别问题,提出了基于动作关键帧的动作识别方法。利用特征在不同类别词典上稀疏编码的重构误差不同,采用重构误差作为判断动作关键帧的特征;为提高关键帧的判别正确率,进一步采用有区别力的词典学习方法,学习得到对相同类别数据重构误差小、对不同类型数据重构误差大的词典。

4. 针对关节数据估计错误情况下关键帧判别错误的问题,采用滑动窗口的方法对窗口内关键帧的判别结果计算加权和,以加权后的结果作为动作的类别,从而提高方法的识别率。方法在由MSR-Action3D数据库中已分割动作视频构建成的连续动作视频数据库上进行验证,取得了79.5%的识别率,平均识别速度为562帧/秒。