● 摘要
自动问答技术是为了应对互联网信息爆炸带来的信息检索困难而产生的一种新型智能搜索引擎技术,是构建自动问答系统的基础。自动问答系统可以接受用户以自然语言形式描述的问题,然后从大量的异构数据中查找并提取出该问题的准确答案返回给用户。本文详细描述了一系列在面向Web的中文自动问答技术领域进行的研究工作和取得的成果。本文首先对自动问答技术进行了综述,包括自动问答技术的起源、发展和研究现状等,分析了目前自动问答技术的技术热点,并研究了自动问答系统的一般组成和构建方式,同时对中文问答技术进行了深入分析。针对中文自动问答技术中的两个关键问题——问题分类和候选答案句选择,本文进行了较为深入的研究,并分别提出了新的解决办法。对于问题分类,本文提出了一种新的基于语义元组和SVM的问题分类方法。该方法首先构建了一种基于语义元组的中文问题特征选择方法,然后利用SVM对表示为语义元组特征的问题进行分类。通过一系列的实验,验证了方法的分类准确性,得出方法的大类分类准确率为89.33%,子类分类准确率为78.67%。在候选答案句问题的研究中,本文提出了一种基于句子特征权重的中文候选答案句选择方法。该方法以一种全新的句子特征权重计算方法计算候选答案句集中的词语特征权重,并进一步得到句子权重,然后结合候选答案句和用户问题的相似度,对候选答案句进行排序和选择。通过实验,证明了这种方法的有效性和可用性,得出方法的查准率为67.14%,召回率为60.47%。最后,本文以以上两个研究重点为基础,设计实现了一个面向Web的中文自动问答系统。该系统包含四个主要模块,利用了本文提出的问题分类和候选答案句选择构建相应的问题分析和答案抽取模块,同时设计实现了信息检索和用户界面。该系统包含了常见的自动问答系统的所有功能模块,是一个完整的中文自动问答系统构建框架。