● 摘要
随着互联网和信息检索技术的高速发展,在世界范围内,知识和信息以空前的速度爆炸性的增长并且快速的传播和被更加平等的共享着。以Google为代表的第二代搜索引擎已经实现了对关键词相关的海量信息的快速检索,而这也带来了用户在海量搜索结果面前的“信息迷失”。希望通过自然语言描述,表达自己的查询需求,希望搜索服务系统能够理解用户意图,返回恰当的结果,因此更加符合用户检索需求的技术应运而生,语义搜索引擎、问答系统的研究成为当前自然语言处理领域中最有活力的方向之一。广域问答系统具有非常广泛的应用前景,例如网络答疑、公司客服等方面。本论文以研制广域的问答系统为目标,根据国内外问答系统的发展现状和所取得的成果,对中文问答系统及自然语言处理的相关的关键技术进行了较为深入的分析与探讨,实质性工作和创新点如下:
1) 结合自然语言处理技术和中文特征,研究中文问答系统的理论框架和系统结构,从总体上对问答系统形成一个较为清晰的认识,并且对其中的关键技术进行合理技术选型,得到解决方案。
2) 问题的分析和答案的抽取是问答系统的核心技术,本文开发了一种基于句子模型匹配的实现方法。 开发了对答案模板的抽取方法,并且用问题句子答案对进行训练,实现了系统的文本模式识别和有指导模型训练的功能。
3) 针对问题查询的生成,本文将问句中的问题分解为一个或多个查询。具体做法是假设所有问题都可以分解成“上下文”,“目标”,“属性”的三元组,选择知网系统(HowNet)作为相似度计算的基础,对问题进行关键词扩充,然后分解问题以此来预测答案的形式和内容。并且,在保持问题语义不变的基础上,生成多种问题查询模式,大大提高了查询召回率。
4) 在答案抽取方面,本文在基于多关键词语义相似度算法的基础上又后置了一系列的过滤器,其主要作用是:识别命名实体,对候选答案进行分类,进行语义标注和特征提取。最后,按照答案与问题的相似度进行排名,返回指定数目的答案集。
5) 本文结合问题和答案的语义相似度以及问答分类和模板匹配来实现候选答案的评价和排序,进一步提高了信息检索的MRR。
相关内容
相关标签