● 摘要
互联网在信息时代扮演着重要角色,它已经成为人们获取信息的主要媒介。上世纪末诞生的搜索引擎技术是一种用于帮助Web用户查询信息的搜索工具,它以一定的策略在Internet中搜集和发现信息,同时对信息进行理解、提取、组织和处理,并为用户提供检索服务和信息导航。为了满足网络用户的图像检索要求,出现了多种专门用来查询图形、图像的基于Web的图像搜索引擎,它按一定的方式识别Web上的图像,对图像进行分析和理解,为图像添加注释。建立互联网上的图像数据库。查到的最终结果是一幅幅缩微图片、网站链接(URL)及图片的简单文字介绍。论文在分析图像搜索引擎几项关键开发技术的基础上,设计并实现了一个轻量级图像搜索引擎。本文主要完成了以下工作:首先,提出图像搜索引擎的系统模型,详细分析了其中的几个主要的功能模块:图像信息搜集模块、图像特征信息提取模块、图像检索模块、用户服务模块。其次,进行了图像搜索引擎功能设计,对网络蜘蛛、图像特征提取、中文分词、倒排索引等一系列关键技术进行了深入研究。并提出了一种基于图像属性和文本特征相结合的图像特征信息提取系统。再次,基于JAVA平台设计和实现了该WEB图像搜索引擎的各个模块,对整个系统进行了运行和测试。最后,对本文工作进行了总结,并对未来的发展方向做出展望。本文主要创新点和研究成果如下:1. 提出了基于图像属性和语义特征相结合的图像特征信息提取的概念。2. 研究和应用了VIPS(基于视觉信息的页面分块)算法,进行页面分块,提高语义特征的相关度。3. 改进了Lucence默认的评分机制使其更精确地返回相关度高的图像。4. 基于JAVA平台实现了轻量级的WEB图像搜索引擎。