● 摘要
基于内容的图像检索通过提取描述图像特征的向量(如SIFT特征向量),将图像的相似度检索问题转换成向量的相似度计算。本文以上衣图片数据库为例,利用图片分析程序提取出物体的基本特征属性,将这些属性组合成属性向量并基于此实现相似性检索。与SIFT特征向量不同,属性向量同时包含值域连续型元素和值域离散型元素,因此向量整体的相似度度量不能简单地通过计算闵可夫斯基距离或夹角余弦的方式进行。本文针对包含混合数据类型元素的向量,提出了一种基于数据分布情况的属性权重计算方法,并将权重值引入到基于向量距离的检索中。在此基础上,设计并实现了一种基于倒排索引的动态搜索树结构,在保证检索准确度的同时提高了搜索效率。最后,为了将搜索结果更好地呈现给用户,实现了针对搜索结果的多因素排序。本文提出的基于向量距离及多级排序的检索技术应用在上衣检索平台中,通过大量的实验证明搜索准确度有了显著提高,响应速度较之线性扫描有了很大的提升,搜索结果也较好地符合用户预期。本论文的主要内容如下:1. 为了更好地对混合类型属性向量进行搜索,提出一种基于向量距离的检索技术。根据查询向量的取值确定搜索空间范围,统计搜索空间内属性取值分布情况,动态的统计出各个属性在搜索中的区分度大小,进而计算出各属性在相似度计算时所占权重值,并将权重值引入到基于向量距离的检索中。2. 针对上文中提出的相似度计算方法,提出一种基于倒排索引的动态搜索树结构。在对向量进行检索时,为了提升搜索效率且使得搜索空间内数据规模可控,引入了基于倒排索引的搜索树结构。当利用搜索树得到的搜索结果很多时,动态地调整各属性的匹配阈值,使搜索空间进一步缩小以达到更高的准确性。3. 实现了基于内容的上衣图片检索系统。利用图片分析程序获取上衣基本特征属性,结合上文中提出的相关技术实现上衣的相似性检索,并基于多个因素实现了对搜索结果的排序。实验结果表明,搜索技术可以提高搜索准确度和召回率,且使得搜索结果更加符合用户预期。
相关内容
相关标签