● 摘要
在互联网迅猛发展的今天,问答系统作为快速定位网络信息的工具,其重要性越来越明显。自动问答系统是集自然语言处理技术和信息检索技术于一身的新一代智能搜索引擎,相关研究不仅综合运用各种自然语言处理技术,还需要应用大量的统计学规则。自动问答技术的研究已经成为自然语言处理领域和信息检索领域的一个重要分支,它的进展也极大地推动了自然语言处理研究的进步,促进了自然语言处理研究与应用的紧密结合。实际问答系统的处理步骤包括问题分类、查询扩展、文本检索、答案提取和答案的选择及排序。其中,问题分类和答案提取最为关键。本论文的研究焦点是在基于Web的中文问答系统答案提取过程的改进和提高。同时,为了使问题分类更适用于答案提取,本论文还对中文问答系统问题分类进行了比较深入的研究,改善了原有系统的问题分类效果。答案提取及排序和返回是问答系统中重要的步骤,由于这些步骤直接面对用户,其质量直接影响到问答系统的性能。传统的中文问答系统在答案提取步骤中单纯使用VSM模型配合简单的相似度函数,因而在处理同义、多义等中文中的多发问题时,往往会出现“错提”、“漏提”等现象。本文将概率潜在语义分析 (PLSA) 方法引入中文问答系统的答案提取过程,并通过在模型的权重计算过程中引入关系度因子,提出CPLSA方法,借助统计学原理,同时改变一般基于概率潜在语义分析的文本处理使用的词袋模型,应用共现方法,改进其权重计算方法,一定程度上解决了“错提”、“漏提”等现象,从而提高了答案提取的查全率和查准率。通过实验,本文验证了新方法相比VSM方法及PLSA方法的优越性。作为答案提取上游过程的问题分类,对答案提取的效果有重大的影响。其作用主要表现在两个方面。其一,问题分类能有效地减少候选答案空间,降低答案提取的时空复杂度,提高其效率和准确性;其二,问题分类提供的答案类型信息可以直接决定答案提取所采取的策略。本论文分析和比较了问题分类的各种方法,并在依存句法分析和贝叶斯方法相结合的问题分类方法的基础上,提出了基于二元有序词表的问题分类方法。论文通过实验验证了新方法的效果。本论文融合了统计方法和自然语言处理技术,明显地提高了基于Web的中文问答系统中答案提取过程的效率和准确性。
相关内容
相关标签