● 摘要
在计算机视觉中,分析场景的类型和识别场景中的物体是非常有挑战性的,这些问题都可以视作图像分类。有人说,在此方面计算机视觉还达不到两岁孩子的认知水平。从目前取得的成果来看,确实如此,那么图像分类的难度具体是什么引起的?现实中的物体空间相对位置复杂,可能引起遮挡,两种接近的物体可能被认为是一种物体,同一种物体可以有不同的姿态,尺寸,颜色,这些随机因素的影响很难有效消除。基于此,本文提出基于多通道融合的图像分类算法,致力于通过景深,颜色,纹理等信息将复杂场景中的物体分成不同部分,进而利用优化组合的图像表示算法计算图像特征,继而利用流形算法将图像特征降维分类,提升分类精度。最后,将物体作为高级特征,使用其语义,位置,数量等构造不同场景的特征矢量,从而完成场景分类。
本文的创新点包括:
第一,提出一种基于彩色信息引导的景深图像修复算法。为解决 Kinect 等摄像头提供的景深信息出现不同程度的像素丢失现象,使景深信息完整,精确,本文提出颜色结构引导的景深修复算法。首先,使用加权保边 L0 平滑算法将颜色结构信息提取出来,并对弱边缘进行了保护。算法的效果是即减少纹理信息的不连续性又保护了弱边缘信息结构局部真实性。其次,使用有向异性 Perona-Malik 热传导模型修复丢失像素。方向性使用丢失像素的修复优先级和其邻域连续性判断,它可以降低错误像素的扩散性,提高修复精度。另外使用了拉格朗日二阶矩模型,使修复像素保持与周围像素的连续,这样可保证修复结果与真实值的近似一致性。最后得到的修复景深图像,信息完整,准确,可对后续分割分类算法提供有效信息。
第二,提出基于多阶 L0 范数平滑的分割算法,将景深图分割成独立物体或部分。对物体分类之前,先要将前景物体和背景分离,保证用于分类的特征矢量中包含尽可能少的背景噪声。首先, Kinect 采集的深度信息有噪声,需要先进行降噪处理,这里选用基于非局部相似性的全局均值滤波算法进行降噪处理。然后,我们使用基于平滑
的方法进行分割。我们发现经平滑滤波处理,图像波动能量下降,也就是总体梯度能量变小,而且某些平滑算法又有很好的保边效果。这样,物体内部相似区域纹理被平滑掉,而物体间的区分性不变,达到近似分割效果。基于此,本文提出多阶加权引导的 L0 平滑,对边缘位置的平滑权值进行削弱,并且对曲面和平面进行多阶分离处理,
保证在曲面上没有过平滑情况,从而将深度图像分成不同的层,对应于距离摄像头不同的远近。经过多阶平滑,后续使用简单的邻面连续判断就可以完全自主的将图像进行分割。
第三,提出特征可视化算法,分析了经典词袋算法及后续改进的有效性。在此基础上,构造组合优化的图像表示算法。首先,在 HOG 可视化算法的启示下,提出将SIFT 特征矢量重建成图像的算法,并利用可视化算法对词袋框架下图像表示进行了系统的评估。具体的,根据经典词袋框架及派生算法,提出了 Linear Approximation,
Paird Dictionary Learning(PDL) 和 Smoothness based PDL 等 3 种可视化算法,并对比原图验证了可视化算法的有效性。使用可视化工具,依次对 SIFT 特征, Sparse Coding 和在线优化词典算法对可视化效果的影响进行了分析。然后,评估了密集 SIFT 特征在错误分类中扮演的角色,得出的结论是 SIFT 特征本身虽有缺陷,也会因特征缺陷使分类结果降低,但这种缺陷不会在视觉上产生足够大的混淆,以至于我们将图像本身的类别分类错误。结论是特征缺陷可以通过结合彩色信息等进行弥补,因此分类错误的主因另有他途。通过可视化对现有词袋框架存在的问题分析,我们认为语义不稳定性是最为可能的主因。另外,通过可视化我们验证优化词典,稀疏编码等对经典词袋框架的改进,并对邻域平滑性对分类算法的影响进行了论证。
第四,提出分段式流形降维,提高了分类器训练效率。降维算法可以抽取图像中区分性的一些特征,这样可以降低计算时间,并削弱噪声影响。因此我们希望使用降维算法消除词袋算法的缺陷带来的语义歧义,以及直方图中的背景噪声。经过对研究现状的分析,拟使用基于地标的流形降维算法。此算法已经被使用到简单的手写字识别算法中,但是,由于多类图像库特征的维度更高,且类间类内距离变化很大,算法无法直接移植。因此,对于多类图像特征的特殊性,经过分析其分块独立性,提出层级降维的方法,成功解决了流形降维对目标数据空间连续性的约束问题。另外,提出类内特征最近邻组平滑算法,将类内特征的背景噪声通过有监督的平滑算法消除。从而从另一种角度完成图像特征间距离学习的问题。
相关内容
相关标签