当前位置:问答库>论文摘要

题目:基于文本的WEB图片搜索引擎技术的研究与实现

关键词:浅层文本特征;主题爬虫;图片搜索;综合权重

  摘要

互联网的发展带来了网页资源的爆炸式增长,这些资源不但包括文本信息,还包括图片等其它的信息。图片数量的飞速增长,带来了对图片搜索引擎的需求。本文以针对图片搜索引擎的应用背景,目标是构建科技类的图片搜索引擎,提出了基于文本的科技类图片搜索引擎解决方案。本文主要介绍了WEB图片搜索引擎相关的技术,包括聚焦主题爬虫、图片文本信息的抽取、图片信息的存储和排序方案。具体内容主要包括以下三个方面:1 科技类主题爬虫研究。通过对主题爬虫的相关技术的研究,同时参照科技类主题爬虫的自身体征,本文提出了一种基于联合相似度模型的主题爬虫。联合相似度指的是综合考虑网页间的链接关系和文本相似性。实验证明这种方法是有效的。2 基于浅层文本特征的图片信息抽取。目前网页的结构特征淡化,网页内容的属性信息存在于CSS中,传统的文本抽取方法有一定的局限性。本文根据图片文本信息的特征,提出了一种基于浅层文本特征的图片信息抽取方法。浅层文本特征,指的是文本的非语义特征,只是对文本表层特征的简单统计,例如链接,标点,句子长度等等信息。这种方法克服了传统方法在新的结构网页中效率低下的问题。3 图片信息权重模式研究。图片的文本信息分别处在网页中的不同位置,包括标题、锚文本、替换文本和环绕文本等。这些不同的位置对于图片的描述力度不同,而且不同位置之间又互相作用。本文提出了一种综合权重模式,综合考虑不同位置的权重、各个位置的局部权重和整体权重,取得了不错的效果。