当前位置:问答库>论文摘要

题目:图像场景的分割分层与布局迁移

关键词:图像理解,语义分割,场景分层,遮挡判定,布局迁移

  摘要



图像场景内容理解是虚拟现实、计算机视觉、计算摄像学、增强现实等研究领域及其交叉方向的研究热点,在公共安全、航空航天、影视娱乐、文化艺术等行业领域具有重要应用价值。

本论文重点围绕图像场景内容分割分层,调研分析了相关国内外研究现状及其发展趋势,主要针对关键问题:如何理解并运用图像内容的语义关联和层次线索,提高图像场景分割和分层的准确率?深入开展了图像场景语义分割、图像场景分层及其遮挡判定等方法研究。在此基础上,进一步研究了图像内容驱动的场景布局迁移方法。论文主要创新点包括:

1、提出并实现了一种图像内容上下文指导的场景语义分割方法。该方法以输入图像的相似图像集合为训练集,学习联合增强的判别式模型,根据判别式模型预测输入图像的粗略语义概率;定义输入图像的图结构,以概率全局最大的超像素作为图结构的初始种子点,根据粗略概率、纹理特征和边界特征,计算图结构节点的初始测地线距离;根据输入图像与相似图像之间的相似场景内容上下文信息,由相似图像集合的相邻超像素对组成训练样本,学习用于指导测地线传播方向的指示器;对输入图像场景语义标记的迭代处理,每次迭代:选择测地线距离最小的无语义标记超像素及对应的语义类别,作为本次迭代的种子点及其语义标记,并根据传播指示器、纹理特征和边界特征,选择性更新与该种子点相邻的无语义标记超像素的测地线距离;迭代结束后,得到输入图像的场景语义分割。该方法的语义分割准确率,在CamVid和MSRC公共基准数据集上分别提高了3.36%和7%,在CBCL数据集上接近于最优准确率。在此基础上,本论文将该方法拓展到视频场景语义分割,结合马尔可夫随机场模型与测地线传播的嵌入求解,提出并实现了一种时空域联合上下文指导的视频场景语义分割方法。该方法在保持视频分割效果连续性的情况下,提高了分割准确率。

2、提出并实现了一种层次线索驱动的图像内容遮挡判定及场景分层方法。在人类空间感知机理的启发下,该方法以语义、位置、轮廓、公共边界和交界点作为层次线索,定义图像语义分割区域之间的层次特征向量;针对训练图像样本集合,计算训练图像区域之间的层次特征向量,标注训练图像区域之间的遮挡关系,通过Adaboost算法构建遮挡关系分类器;针对输入图像及其层次特征向量,利用遮挡关系分类器,预测输入图像区域之间的遮挡概率,并且以输入图像区域为节点,以输入图像区域之间的遮挡概率预测值为边权值,构建输入图像的带权有向图;在带权有向图上利用偏序推理算法,确定输入图像区域之间的层次关系,并且给出输入图像场景的语义分割区域层次结构。针对LHI等公共基准数据集的自然场景、人造场景、室外场景,该方法给出的遮挡判定平均准确率分别为92.9%、82.7%、87.4%;在Geometric Context公共基准数据集上,该方法在遮挡判定方面略有优势。

3、提出并实现了一种图像内容驱动的室内场景布局迁移方法,针对输入的三维室内场景,仅参考一幅室内图像,就可以将参考图像的场景布局迁移到三维室内场景。该方法设计了室内场景的四种布局规则(位置、配对、朝向和距离),根据室内图像样本集合及其场景布局标注信息,统计学习出室内场景布局规则的先验值;通过语义标记和布局标注,建立单幅参考图像和输入三维场景之间的室内对象映射关系,并结合布局规则及其先验值、以及参考图像场景布局,构建并求解输入三维场景的布局能量函数;利用布局能量函数的最优解,迁移生成既符合布局规则、又近似参考图像布局的三维室内场景。在此基础上,提出了基于图模型的室内场景布局相似性度量算法,计算样本集合的室内图像分别与单幅参考图像、输入三维场景之间的相似度,建立从输入三维场景布局渐变到单幅参考图像场景布局的室内图像序列,为用户提供成系列的室内场景布局参考。该方法探索了数据驱动的场景快速构建新思路。