● 摘要
场景内容解析是涉及计算机视觉、模式识别、虚拟现实、计算机图形学等研究领域及其交叉方向的前沿热点。其中,场景对象的语义分割及其几何属性解析是该研究方向的难点问题。本论文深入调研分析了相关理论方法的国内外研究现状及其发展趋势,在研究视频图像场景内容语义分割的基础上,重点开展了室内图像场景内容的几何属性解析、及其相应三维模型构建等方法研究,为半自动的三维场景布局提供支撑。本文的主要工作包括以下几点:
1、研究并实现了一种基于三维卷积网络的场景内容语义分割算法。该算法设计了一种三维卷积神经网络,从时空域信息中学习并提取不同语义类别对象的高层判别性特征,进行场景语义分割。首先,针对输入的视频序列,在用户标注关键帧上均匀采样时空体,训练三维卷积神经网络;其次,在整个视频序列上使用预训练的卷积网络模型识别像素语义,得到初始语义分割结果;最后,将视频序列过分割为超体素并构建无向有权图,应用图割算法优化视频场景内容语义分割结果,保持时空一致性。
2、给出并实现了一种基于深度信息的室内图像场景内容几何解析方法。该方法引入图像深度信息,提高了输入场景的几何解析精度。首先,通过求解一系列参数约束最小割问题,得到输入场景中对象的候选分割结果集合,并分别拟合三维包围盒;其次,针对每一个对象分割结果及对应的三维包围盒,使用描述对象统计特性与物理特征的二维图像特征以及三维几何特征衡量其与输入场景的拟合程度;最后,构建无向有权图,将场景的几何解析转化问题为最大权重子团求解问题,采用最大边缘相关度对解析结果进行重排序,提高相邻解析结果的多样性。
3、设计并实现了一种基于内容解析的室内场景三维模型构建方法。该方法构建了室内对象三维模型库。首先,针对库中的每个三维模型,渲染多个视角下的深度图像,提取描述三维模型形状的轮廓特征和深度特征,训练面向模型匹配的随机森林分类器;其次,输入场景的几何解析结果,半自动生成布局图;最后,使用预训练的分类器匹配库中相似的三维模型,结合室内布局专业知识,构建室内场景三维模型。
实验结果表明,引入时空域信息、运用深度信息的场景内容解析,可以提高解析准确率,为室内场景三维建模提供了支撑。
相关内容
相关标签