● 摘要
随着互联网的快速发展并普及,网络的信息量呈现爆炸式的增长,web搜索引擎成为了人们获取网络信息的主要检索工具。在使用搜索引擎时,查询词体现了用户的搜索意图,然而由于人们表达能力或者语言习惯的不同,同一个搜索意图下的查询词在语法规范性、语义明确性方面可能都不一样,导致搜索结果也可能不一样。查询推荐是搜索引擎的用户输入辅助和引导服务,它一方面可以提供表达更规范的查询词给用户,另一方面也可以节省用户的输入成本。但是由于查询词可能具有歧义性,因此,准确地理解用户需求并对其推荐相应的查询词是一个需要解决的问题。本文对如何改善查询推荐服务进行了系统的研究。
本文提出了一种根据用户查询上下文来理解其需求的查询推荐方法,并介绍了这种方法的实现框架。传统的查询推荐服务往往无法满足不同用户在相同输入前缀下不同的信息需求,无法解决前缀字符串和查询词的歧义性问题,而本文提出的查询推荐方法可以很大程度上解决这个问题。
基于上下文的感知查询推荐的有着相对复杂的数据需求,需要用到用户的检索上下文信息,这些都可以从搜索引擎日志中获取到,因此本文还对搜索引擎日志的挖掘技术进行了研究。首先是从搜索引擎日志中挖掘用户查询会话的问题,再从用户查询会话中统计出上下文信息。同时为了解决基于上下文的查询词检索可能会产生的上下文稀疏问题,本文研究了几种查询词聚类的算法,并在比较了几种不同的算法后,采用了基于查询-点击二步图的聚类算法,并优化了这种算法,使其更适合用于查询推荐。
为了提高查询推荐中的查询词质量,本文还研究了基于统计语言模型的查询词质量计算方法。N-gram语言模型是基于马尔科夫假设,通过连续N-Gram的最大似然估计来计算一个句子或者查询词的概率,这种特性可以反映出一个句子或者查询词的质量优劣,对识别低频和错误查询词有良好的效果。本文简要介绍了语言模型的研究现状,并介绍了语言模型在识别查询词质量的应用。
相关内容
相关标签