● 摘要
WEB资源的爆炸式增长,以及网络用户对资源需求的不断增加,使得搜索引擎这种在线的信息检索方式变得日益流行起来。然而,Internet信息的海量性和搜索引擎用户自身知识的局限导致了用户在使用搜索引擎时并不能清晰确定地表达自己的检索意愿,Word Mismatch现象经常发生,其结果是用户对搜索引擎所反馈的查询结果满意度较低。针对这一问题,本论文借鉴传统信息检索系统,将传统信息检索领域的查询扩展方法实施于WEB搜索引擎,以提高WEB搜索引擎的性能和效率,实现WEB搜索引擎的智能化,从而满足用户的查询需求。论文首先研究了信息检索和WEB搜索引擎的一些共性特点,在分析WEB搜索引擎用户查询行为模式的基础上,基于用户查询分析将WEB搜索引擎用户分为“novices”、“common”和“expert”三类。通过分析这三类用户查询长度及查询高级操作使用情况,论证了WEB搜索引擎中实施查询扩展的可行性。然后,针对WEB搜索引擎用户查询的不确定性,通过研究贝叶斯网络在处理不确定性问题方面的优越性能,提出在WEB搜索引擎中实施基于贝叶斯网络的查询扩展。遵循ISO-2788标准,根据基于贝叶斯网络的查询扩展需求模型建立了一个特定领域的查询扩展术语咨询库BN-Thesaurus ; BN-Thesaurus 基于Concept 原则构建,元数据来自领域专家知识。在Concept 基础上, BN-Thesaurus 内的Term 采用Two-Way TermCorrelation 术语关联;对关联后的术语通过eGoogle 并抓取结果页面构建了一个文档集合Corpus ;在该文档集合上,根据互信息公式采用机器学习的方法对BN-Thesaurus 中的Two-Way 术语关联权重进行了量化学习。通过Google 提供的Google AJAX Search API 编程接口构建了一个元搜索引擎系统eGoogle 。eGoogle 实现了基础的停止词分析和分词,它根据规范的Boolean 查询语法对用户原始查询进行扩展并构建一种AND-OR-ANDNOT-tree 形式的查询语句。eGoogle 对Google 的查询结果根据向量空间模型将文档向量化,进行重评估后反馈给用户。eGoogle 元搜索引擎系统证实了查询扩展在WEB搜索引擎上应用的可行性,初步验证了基于贝叶斯网络的查询扩展的可行性和有效性。
相关内容
相关标签