● 摘要
目标分类检测是计算机视觉与人工智能领域的热门话题之一,在目标的跟踪与识别、图像检索、场景分类、多媒体检索等领域都具有广泛的应用。在目前基于分类的目标检测技术框架中,视觉词袋(Bag-of-visual-word,BOW)方法因为突出的性能而被广泛使用。
基于BOW的分类检测技术在多个领域中取得了广泛成功,也出现了许多的改进工作。但是,BOW方法在用于动态平台下的运动目标检测时仍然存在明显不足。特别地,当目标检测场景条件发生变化时,目标与场景特征的分布可能逐渐偏离原始场景分布,而由于视觉词集(CodeBook)以及所训练分类器依然按照原场景标准进行分类,检测效果可能会逐步下降;同时,传统BOW方法中的特征模型表达主要依靠视觉词的统计词频直方图,这一过程中目标各个视觉词的作用相互独立,而相关研究表明,这种模型对目标的表达能力不足,因而在场景中存在过多干扰或目标发生形变等情况下,将无法有效区辨目标。
本文围绕面向目标检测的BOW改进方法开展研究。主要工作与特色包括如下两个部分:
首先,针对现有BOW方法难以适应场景变化下的目标检测问题,提出了一种基于动态CodeBook的目标检测方法。该方法设计了对视觉词集CodeBook的动态调节机制,在目标检测过程中通过对视觉词集按照一定规则进行调整,使得分类器仍然能够随场景变化作出有效的判断而无需重新训练。
其次,针对现有BOW方法对于目标的描述能力不足的问题,提出了一种基于视觉词网络表征模型的目标检测方法。该方法引入视觉词间的空间与语义关联度,并在此基础上建立了对于目标具有全局描述能力的视觉词网络模型,该模型利用关联性较强的视觉词进行协同辅助表达,提高了模型的目标区辨能力,从而改善了运动目标检测的整体性能。
本文完成了上述BOW改进方法在标准测试集和实际交通监视数据集上的验证,实验表明,本文所设计的动态码本库机制和视觉词网络模型在检测率、误检测率等主要指标上取得了较好的目标检测性能。