当前位置:问答库>论文摘要

题目:面向问答系统的众包式数据集成方法的研究与实现

关键词:问答系统;数据集成;Mashup;众包

  摘要


作为一种重要的信息获取方式,问答系统通过基于自然语言的问答能够获得用户提供的直接答案,近年来得到学术界和工业界的广泛认可。一般来说,问答系统可以分为自动问答系统和社区问答系统,其核心问题是快速获得高质量的答案。一方面,自动问答系统通过对用户问题的分析,从后端知识库中推理出与问题相匹配的答案,其特点是效率高,但回答的准确性受到自然语言处理和推理技术的制约;另一方面,社区问答系统依赖于社区用户对问题进行回答,直接将人引入问答系统有效地解决了自动问答系统面临的问题,但面临着效率和最佳答案选择的技术挑战。

针对以上问题,本文综合分析自动问答系统和社区问答系统的特点,将众包技术引入问答系统,提出了基于众包式数据集成的新型问答系统——智答系统,研究了智答系统的关键技术,并结合旅游应用进行了原型系统开发和技术验证。

本文的主要工作如下:

1、提出了基于多样用户回答数据的中介模式构建方法。通过分析众多用户的回答,采用基于本体的概念树获取关键词,确定中介模式;

2、提出了基于中介模式的多源数据检索模型构建和获取方法。基于中介模式利用布尔模型构造统一查询语句,映射不同数据源进行查询重写;同时研究了基于Mashup的多源数据的获取方法,并提出了基于频繁模式挖掘的推荐方法以提高Mashup的构建效率;

3、提出基于众包的高质量答案生成方法。在记录连接、数据融合处理的基础上,通过用户的群体投票解决了多源数据融合中的数据冲突和不完整等问题,并采用持续优化策略生成优质答案;

4、面向旅游应用开发了智答原型系统T-SQA。基于游多多网站的真实问答数据,集成通过互联网上开放API所获取的POI数据,为用户提供高质量的旅游问答服务。基于该系统对中介模式构造方法进行分析,并对查询语句质量、答案生成效果进行了评估,实验结果表明了面向问答系统的众包式数据集成方法的有效性。