当前位置:问答库>论文摘要

题目:面向社区问答系统的句子相似性度量关键技术研究

关键词:信息检索,社区问答系统,句子相似性,问题推荐,质量预测,核函数,图规则化

  摘要

随着Web2.0的兴起以及用户自己生成的内容(User Generated Content, UGC)在网络上的流行,以Yahoo!Answers和百度知道等为代表的社区问答系统,以其灵活的用户交互特性,逐渐成为深受用户喜爱的知识共享平台。和传统的搜索引擎相比,社区问答系统提供了一种更加直接和有效的信息获取方式,使得人们可以自由地在网上进行提问和回答,并允许用户对已有内容进行评价和检索,从而实现人与人之间的互助和知识共享。目前,社区问答系统已经吸引了大量用户参与,并存储了大量已解决的问题,为满足用户的进一步需求积累了丰富的信息资源。然而,日益增长的用户和数据资源也为社区问答系统的研究带来了许多挑战,如何从海量数据中迅速、准确地找到所需信息成为亟待解决的问题。句子相似性度量技术在社区问答系统研究中具有举足轻重的作用。社区问答系统中,问题在绝大多数情况下由一句话构成,答案由几句话、一句话甚至一个词构成,进行问题和答案的处理必然要涉及到对问题和答案语义的理解及问题或答案句子之间的相似度的判断。句子相似性度量技术在社区问答系统中的应用主要包括相似问题检索,问题推荐以及答案质量预测等方面。本文围绕这几个方面进行了深入研究,主要研究工作和创新点如下: 1. 针对社区问答系统中的问题检索,提出了一种基于复合核函数的句子相似性度量模型。该模型采用树核函数的方法计算问句之间的结构相似度,并针对原有算法的不足,做了相应的改进,提出了加权树核函数。同时为降低句法解析过程中解析误差对树核函数的影响,作者在加权树核函数基础上,将其与字符串核相结合,实现了一种能同时融合问句的词序信息、词性信息以及句法信息的复合核函数,通过比较问句之间的相似性,实现社区问答系统中的相似问题检索。2. 针对社区问答系统中的问题推荐,提出了一种基于大众兴趣的问题推荐模型。作者根据社区问答系统中的用户参与模式,提出了大众兴趣这一概念,并首次将其应用于社区问答系统的问题推荐中。该模型首先根据问题之间的相似关系,在问题集上构建相似图,并在该相似图上预先估计每个问题的重要性,用以衡量大众用户对每个问题的关注程度。随后,结合社区问答系统中已有问题和查询问题之间的相关度,提出了一个基于语言模型的问题推荐模型。最后,在真实社区问答系统数据上验证了该方法的可行性。3. 针对社区问答系统中答案质量预测问题,提出了一种基于图规则化的答案质量预测模型。该方法首先通过基于答案质量的相似性样本选择算法,从质量已知和未知的答案中选择训练样本,然后利用图模型对训练样本建模,最后采用图规则化的方法,利用图规则化线性回归模型对答案质量进行预测。实验结果表明,该算法使得答案质量预测的准确率获得了明显地提高。随后,作者进一步将该质量预测模型应用于基于社区问答对的自动问答中,实现了一个以百度知道问答对为数据源的自动问答系统原型,并用实验的方法比较了答案质量预测对系统性能的影响。结果表明,在使用答案质量预测的自动问答系统中,答案相关性和答案满意率均获得了明显地提高。