● 摘要
随着可见光敏感器与三维扫描装置等设备及其技术的快速发展与广泛应用,图像视频和三维模型等可视素材的数据规模越来越庞大,以人工方式进行可视素材的内容编辑,例如图像视频的对象提取、场景调色、场景增强与场景融合,以及三维模型的分割、变形与融合等,需要耗费大量的人力、物力和财力,难以满足文化艺术、创意设计、数字娱乐、电子商务、智能制造、公共安全、航空航天等行业领域的迫切需求,从而必须立足可视计算、虚拟现实、图像处理、视频处理、计算机图形学与机器学习等研究领域及其交叉方向的国际前沿,开展高质量、智能化、低成本的可视内容自动编辑理论方法与关键技术研究。
本论文围绕图像视频场景调色、图像对象精准提取、三维几何模型分割等基础性的可视内容自动编辑,调研分析了相关研究现状与发展趋势,针对以邻域为主的可视内容编辑方法在准确性、鲁棒性、适用性等方面存在的难点问题,深入分析了可视内容在特征空间的分布规律,重点开展了可视内容编辑的特征结构模型研究,在特征结构保持、特征结构组合、特征结构嵌入、特征图结构等方面提出了新模型,探索出以特征域为主的可视内容编辑新途径。主要创新点如下:
1、针对图像视频场景颜色变换的过渡区域颜色裂变问题,提出并实现了图像视频颜色编辑的特征流形结构模型。该模型将输入图像视频的全部像素映射到颜色特征空间,分析图像视频像素颜色在特征空间的分布规律,计算像素颜色在特征空间的局部线性系数,确定像素颜色子空间,建立特征流形结构。根据特征流形结构,将用户的像素颜色编辑操作,自动传播到输入图像视频的所有像素。基于该模型,设计实现了图像视频对象颜色变换、图像视频场景基调变换、灰度图像场景着色等方法。实验表明:该模型能够保持过渡区域像素之间的特征流形结构关系,有效克服了同类方法难以解决的颜色分裂和颜色变异问题。
2、针对千万级像素图像视频编辑的内存限制问题,提出并实现了大图像视频颜色编辑的特征稀疏结构模型。该模型引入稀疏表达的思想,采样并确定输入大图像视频的初始像素样本集,分析初始像素样本之间的线性相关性;计算初始像素样本之间的相对熵,去除高度线性相关的像素样本,优化像素样本集;以优化样本集的像素颜色,重构输入大图像视频的像素颜色,计算优化样本集的重构系数;并且根据创新点1,确定优化样本集的特征流形结构,将重构系数与特征流形结构进行组合,建立优化样本集的特征稀疏结构。根据特征稀疏结构,将用户的像素颜色编辑操作,由优化样本集自动传播到大图像视频的所有像素。基于该模型,设计实现了大图像视频对象颜色变换、大图像视频场景基调变换、大图像视频场景融合等方法。实验表明:该模型在保持颜色编辑视觉效果的情况下,以增加一倍计算开销,换取节省90%的内存开销。
3、针对图像对象精准提取的卷积窗口参数难以估计问题,提出并实现了图像对象精准提取的特征结构嵌入模型。该模型根据三分图,划分输入图像的前景区域、背景区域和未知区域,针对未知区域的每一个像素,计算该像素与相邻的八个像素(输入图像)之间的拉普拉斯关联系数,确定未知区域像素的邻域平滑结构;根据创新点1,确定未知区域像素的特征流形结构;分析并根据未知区域像素颜色在邻域和特征域的分布规律,将邻域平滑结构与特征流形结构相互嵌入;在此基础上,嵌入求解未知区域像素的透明度,实现图像对象的精准提取。实验表明:基于该模型的图像对象精准提取方法,无需估计卷积窗口参数,并且能够避免透明度过度平滑等异常现象,其精准度在微软公司性能评测国际排行榜上处于领先水平。
4、针对三角面片、拓扑、姿态等差异较大的同类三维几何模型集,提出并实现了三维几何模型共分割的特征图结构模型。针对输入的三维几何模型集,进行过分割处理,获取三维几何模型的超面片集,并提取每个超面片的几何特征;以超面片为顶点、以超面片几何特征相似度为边权重,构建超面片的因子图结构模型;根据图论能量三角不等式约束条件,计算因子顶点的几何特征相似度,确保因子图能够等价转换为可收敛的邻接图,使得因子图结构模型可收敛;分析并根据三维几何模型之间稀少的超面片对应关系,结合超面片的局部几何拓扑关系,建立超面片所属三维几何部件的对应关系;最后将该对应关系引入到可收敛的因子图结构模型,并且进行因子图划分处理,共分割出三维几何模型集的各种部件。实验表明:该特征图结构模型能够有效建立三角面片、拓扑、姿态等差异较大的同类三维几何模型之间的部件对应关系,提高了共分割准确率。