● 摘要
随着互联网与数码设备的普及和快速发展,网络图像规模呈现激增态势。图像语义标注是实现图像语义检索与管理的关键,其任务是给图像添加反映图像内容语义的文本标签。利用现实环境下庞大的网络数据集图像资源与丰富的语义信息,建立图像底层特征与高层语义的关联,提高图像语义标注在网络数据集上的处理能力成为当前的研究热点。受到网络数据集的弱标签性问题,视觉和语义多样性问题,算法的规模化问题等诸多因素制约,基于网络数据集的图像语义标注方法研究是公认的,具有挑战性的课题。因此,研究图像语义标注方法在网络数据集下的推广,针对已有方法的缺陷研究适用于网络数据集环境下的图像语义标注方法,具有重要的理论意义和实际应用价值。在国家高技术研究发展计划(2009AA012103)和国家自然科学基金(61170132)的资助下,我们对弱标签环境下的图像语义标注,数据驱动的大规模在线标注,利用语境相关信息进行语义优化及多样化的语义标注等基于网络数据集的图像语义标注方法的若干关键问题进行了深入地研究。取得的研究成果和创新之处如下:(1)提出了一种基于语义邻域学习的图像语义标注方法(Image Annotation by Semantic Neighborhood Learning From Weakly Labeled Dataset,SNLWL)。以解决网络数据集和现实应用中存在的标签不准确、不完整,并且分布不均衡的问题。其核心思想是通过邻域信息的指导降低弱标签对学习方法的性能影响。该方法在标签损失误差最小化意义下填补遗漏标签,构建近似语义平衡邻域。进而通过多标签信息嵌入的邻域测度学习保证邻域内样本的语义一致性,通过稀疏表示获得图像之间的部分相关性,并构建语义一致邻域,保证邻域样本具备全局相似性,部分相关性和语义一致性。最后在邻域标签重构误差最小化意义下进行标签预测,降低噪声标签对性能的影响。大规模网络图像集合与标准评测集上的实验结果表明,该方法取得了较大幅度的性能提升。(2)提出了一种基于标签集相关性与一致性学习(Label Set Relevance and Consistency Learning,LSLabel)的图像语义标注方法,以提高网络图像集上的在线自动标注性能。该方法给出了标签集对图像相关性,标签集内部一致性的概率估计算法,将各种约束形成一个优化问题,进而采用贪心搜索策略获取近似最优解,并针对大规模图像集进行了优化。网络图像集上的测试表明,相比于传统的基于数据驱动的标注方法,该方法获得的标签集能够更好的描述图像语义,提高了标注性能。(3)提出了一种数据驱动的语境相关优化模型(Enhanced Multimodal Refinement Model,EMR)。网络数据集具有的语义丰富性和视觉多样性,导致基本标注方法性能无法满足实际需求。为了提高标注质量,需要对初始标注结果进行优化,以得到更好的标注结果。利用基本图像标注模型得到初始标签,构建标签语境相关图和图像内容相关图,将语境相关问题描述为一个正则化框架下的优化问题,通过该问题的有效求解即可获得最终优化的标注结果。该模型充分利用了标签的语境相关信息和图像内容信息在语义优化过程中对标注优化的影响,实验结果表明多模态互增强的语境相关优化模型在网络据集上可以兼顾优化效果和优化效率。(4)提出了一种多样化图像语义标注方法(Diverse Image Annotation,DIA),以解决传统的图像语义标注结果中存在的语义单一化问题。语义标注多样化要求图像的语义标签不仅要和图像内容相关,也要和图像的其他标签具有语义差别,从多个角度对图像内容进行描述。从用户利用标注结果进行图像检索的角度考察,多样化语义标注的结果将使得图像具有更多被检索到的机会。从信息熵角度考察,多样化标注的结果将使得标注结果的信息量增加。首先,定义了一个融合相关性和多样性的度量,平均多样化准确率(Average diverse precision,ADP)。其次,DIA利用视觉语言模型(Visual Language Model,VLM)分别计算标签与图像的相关性和标签之间的视觉距离。最后,基于ADP期望的最大化,通过启发式的迭代求解过程得到兼具相关性和多样性的标签集合。网络数据集上的实验结果表明,该方法在相关性保持的基础上,提高了主题覆盖率,涵盖了更广泛的语义概念。