当前位置:问答库>论文摘要

题目:聚合搜索相关技术的研究与实现

关键词:聚合搜索;维基百科;查询项推荐;短文本聚类;原型系统

  摘要

随着用户对信息检索需求的不断增长,聚合搜索技术作为信息检索的研究方向之一,日益受到研究人员的关注。聚合搜索系统通过分析用户查询项,采用多种搜索策略,从不同的数据源中获取数据,并且将这些数据进行整合,以一种高效、合理的方式将搜索结果返回给用户。本文围绕当前聚合搜索技术所面临的问题,提出了一些理论和方法,并且通过实验验证所提出方法的可行性与正确性。首先,提出了一种基于知识库的查询项推荐算法框架。该方法分析了概念扩展法及相关反馈算法的不足,提出在这两种传统的查询项推荐算法的基础上,结合近年来发展迅速的网络协作知识库(Wikipedia)的优点,为用户提供高质量的查询项推荐。该方法通过将来源于知识库和查询日志的查询项推荐相结合,以满足用户的多样性需求,同时利用伪相关反馈的思想,将初始查询项推荐进行过滤和排序,以保证所提供推荐项的质量。实验结果表明,本文提出的基于知识库的语义相似度算法和推荐项重排序算法达到了较高的性能指标。然后,分析了短文本聚类中广泛存在“数据稀疏”和“语义鸿沟”等问题,提出了一个将短文本自身和知识库的语义特征项相结合的聚类算法框架。该算法通过语法分析对短文本自身进行层次化分解,根据所提取的每一层概念项的特点,充分挖掘短文本自身所包含的信息,然后从知识库(Wikipedia和WordNet)中提取相应的语义特征项,作为短文本自身特征项的补充,从而重组文本表示特征空间,来改善短文本表示质量,提高短文本聚类算法的性能。实验表明,本文提出的短文本聚类框架在多个评测指标上均明显优于当前经典的聚类算法。最后,在对搜索系统任务进行全面分析的基础上,设计并实现了基于聚合搜索思想的信息检索原型系统(QExplorer),并详细介绍了系统中各个功能模块。这个原型系统的实现不仅验证了聚合搜索思想的具体应用,同样也为下一步研究工作打下了坚实的基础。