● 摘要
底层特征的表征是当前计算机视觉领域最为活跃的研究方向之一,也是目前流行的深度学习网络需要解决的一个问题。针对这个问题,国内外的研究组从不同视角已经提出了很多种方法,其中,基于梯度方向直方图的方法获得了广泛地应用,但是,在方法的可区分性和鲁棒性上仍有很大的可提升空间。在便于解决旋转、尺度变换问题和较高的计算效率的前提下,如何让特征描述子在具有较高的可区分性的同时也具有较好的鲁棒性仍是目前研究的难点和重点。另一方面,随着研究手段和研究设备先进性的提高,对生物视觉的研究取得了很大的进展,尤其是对宏观方面的视觉通路和微观方面的视网膜表征机理的研究,取得了很多系统的研究成果,这些成果对我们研究计算机视觉的底层特征具有良好的借鉴意义。
以如何同时提高描述子的可区分性和鲁棒性为切入点,借鉴灵长类动物视网膜对客观世界的视觉表征和小波对信号的完全重建理论,论文研究了高区分性和鲁棒性的图像表征方法以及图像描述子设计的理论支撑,主要研究内容和创新点总结如下:
1 对图像表征的发展脉络进行了概述,并对经典的图像表征方法进行了综述和分析,除此之外,也特别系统综述了目前基于生物视觉的图像表征方法。图像表征作为计算机视觉的基础问题,已经从不同的视角、不同的理论和不同的应用场景提出了很多种方法,本文对这些方法中的代表性方法和里程碑式的工作进行了总结分析,找到了描述子设计的本质和核心问题。此外,生物视觉对客观世界的表征对图像表征方法的研究具有很好的借鉴意义,通过建模生物视觉的表征机理,研究人员已经提出了很多有效的图像表征方法,本文总结分析了其中的代表性方法,并指出了在基于生物视觉的图像表征方法的研究中存在的问题。
2 基于灵长类视网膜神经节细胞编码的图像描述子。现有的图像描述子多是来自实际应用,缺乏相应的生物基础和数学物理支撑,在性能上也有很大的可提升空间。论文提出了一种基于灵长类视网膜P 型神经节细胞编码的图像表征方法。灵长类动物的视觉系统大致来说有两条视觉通路,其中一条有关于物体识别,该通路起始于视网膜的P 型神经节细胞对客观世界的编码,该表征不受大脑主观意识支配,但却可以支撑视觉通路上后续各种复杂的高级视觉任务,通过建模该底层表征论文提出了一个既具有高可区分性又具有高鲁棒性而且高效的图像描述子。该描述子在计算上可以分为两个阶段,首先计算兴趣点周围邻域的梯度方向图,然后在每个采样点位置上用相应尺度的高斯差函数(DoG)与梯度方向图卷积得到该采样点的子特征向量,拼接所有采样点的子特征向量得到描述该兴趣点的总特征向量。采样点的分布和相应的DoG 卷积尺度有三个主要的特点,第一,采样
点分布在不同半径的同心圆上。第二,这些同心圆的半径从里至外按指数方式增长。第三,同一个同心圆上所有的采样点采用相同尺度的高斯差(DoG)卷积核,从内层同心圆到外层同心圆DoG 卷积核的尺度也按指数方式增长。这个结构与视网膜P 型神经节细胞的分布和响应特性是严格一致的。此外,由于描述子的结构是圆对称的,而且卷积核高斯差函数也是圆对称的,这使得论文的描述子非常便于解决旋转问题。在典型的测试描述子性能的数据库上的实验结果证明了所得
描述子的有效性,其性能优于传统的描述子甚至优于当前实验结果最好的基于学习机制的描述子。
3 图像描述子设计方法。现有的图像描述子缺乏理论支撑,仍未探到问题的本质,方法多来源于实际应用,方法的参数多根据经验设置。在分析通过建模神经节细胞编码所得的描述子的基础上,论文提出了一种基于小波紧框架的描述子设计方法。该方法揭示了描述子参数选择和小波紧框架之间的关系,方法认为描述子相应的小波框架越紧,参数的选择越符合紧框架,那么描述子的性能就越高。而在
小波理论中,小波基函数形成的框架越紧,对Hilbert 空间中信号的重建精度就越高,抗噪声的能力也越强。为了验证提出的描述子设计方法的有效性,论文构建了紧度更高的高斯差函数小波以及相应的描述子,按照提出的方法优化了基于高斯卷积核的DAISY 描述子的参数,并构建基于可形成Hilbert 空间正交基的Haar小波的描述子。实验结果表明,优化后的DAISY 描述子性能有了明显提升,但
其性能低于基于Haar 小波的描述子,而基于论文构建的紧框架小波的描述子性能最优,而且使得框架越紧的参数也使得描述子的性能更优。这很大程度上证明了论文提出的描述子设计方法的有效性。基于此新的描述子构建方法,一些基于其他小波的描述子未来可能取得更好的效果,这也为局部描述子的研究提供了新思路。
4 图像描述子降维方法。现有的降维后性能最好的描述子是基于学习机制的,基于学习的图像表征方法需要额外的训练阶段而且不同的应用场景需要不同的训练数据库,这增加了算法的复杂度,且采集不同场景的大规模训练数据库成本较高。基于此,研究了论文提出的描述子在经不同降维方法降维后的性能。实验表明,基于最大化类边界和凸优化的降维方法可以进一步提高论文提出描述子的性能,已经超越了目前最好的基于学习机制的描述子。
综上所述,通过建模视网膜P 神经节细胞的编码,论文提出了一个既具有高可区分性又具有高鲁棒性而且高效的图像描述子。在分析所得描述子的基础上结合小波紧框架理论,论文又提出了一种新的描述子设计方法。为降低描述子的维度,论文研究了不同降维方法后描述子的性能。