● 摘要
随着人类社会的发展及信息技术的进步,人们获取电子文档及网上信息的数量越来越多。在海量信息中准确、迅速地获取用户的目标文档可以大大提高人们的工作效率,因此自动检索技术变得越来越重要。目前的检索系统主要是基于词汇级的分析和匹配,其优点是处理效率高、查全率高,缺点是检索结果的查准率低,检索的正确结果往往被淹没于大量无关的检索结果中。使用常规的语义分析方法虽然可以进行精确的检索,但是该方法效率很低,而且由于自然语言的复杂性,特别是语法的不规范性、多变性和歧义性,语义表示和分析的复杂性等原因,目前常规的语法语义分析尚不能满足信息检索的需求。而句子的语义距离基于句子级的分析,能比较精确的表达句子之间的差异;而且计算句子之间的语义距离既可以基于对句子语义的深层理解,又可以基于句子中词汇的词性、拼写、位置等表层信息。与常规的语义理解方法相比,它具有形式灵活、易于实现、效率高、可以量化比较等优点。将句子语义距离计算应用于信息检索系统,可以发挥其优势,提高信息检索系统的性能。本论文研究了将句子语义距离计算应用于信息检索时所涉及的一些关键技术和问题,并取得如下研究成果:1)提出了基于模式的语法分析算法。该算法针对规范科技句子的特点,将句子中一些确定信息总结为复句模式、单句模式、短语模式、限制模式等,并分别给出了不同模式的形式化表示;然后利用上述模式实现了基于模式的直接语法分析方法。评测表明该方法可以提高规范科技句子的语法分析精度。2)定义了结构合理的语义框架。针对句子语义距离计算的要求,定义一个语义框架的结构和内容,用于表示句子的语义知识。该框架不需要完全理解句子的语义,而是将句子词汇映射到语义框架的各个槽,简化了语义分析过程,并且有利于语义距离的计算。3)提出了基于同构的语义距离计算方法。该方法首先计算表示句子语义的框架系统之间的最大同构子框架和最大包容子框架,然后利用这两个子框架所包含的信息量进行语义距离计算,并且动态调整句子成分在计算过程中的权重。评测证明该算法具有较高的计算精度。4)提出了基于多尺度句子信息的语义距离计算方法。该方法综合基于词汇级和基于语义分析级语义距离算法的优点,首先利用词汇级算法进行初级过滤,然后对经过初级过滤的句子对进行基于语义分析的详细计算,得到更精确的语义距离。评测证明该方法在保证计算精度的同时,可以有效提高时间效率。5)提出了基于句子语义计算的信息检索模型并实现了一个检索系统。该模型利用多尺度语句信息语义距离计算方法计算查询句子和被查文档中句子之间的语义距离,并利用该距离进行查询结果的排序、判定文档对查询的态度等功能。最后用实现检索系统证明证明该模型可以提高查询的查准率等性能。
相关内容
相关标签