当前位置:问答库>论文摘要

题目:基于NLP的中文观点抽取技术的研究与应用

关键词:观点抽取;主观性文本;意见挖掘;情感分析;极性分析;网络评论

  摘要

如今Web已经成为人们发表意见的重要途径,论坛,BBS,Blog等已经成为人们获得外界观点信息的重要来源。但是Web上的信息是海量的,而且比较分散,依靠人工浏览查阅评论信息,是一项费时而又低效的工作。传统的信息检索和信息抽取研究的重点是针对客观表达的事实信息,而“观点”却是主观性的,因此需要一种能够自动抽取主观性观点的新技术,从用户评论中自动抽取出针对每个产品特征的意见,提取用户感兴趣的主题(Topic)或特征(Feature),并分析其语义极性倾向(褒义、贬义或中性)和强度。本文尝试在应用NLP(Natural Language Processing)的基础上,对中文评论的语义极性倾向和观点抽取进行研究。在基本粒度的词语极性研究中,分析了HowNet的语义知识网结构,利用其对词条标注的褒、贬语义信息建立了一个基本的情感词词典。然后提出了一种基于词语语义相似度信息计算潜在情感词极性的方法,弥补了词典收录情感词覆盖率偏低的不足。在对评论文本情感倾向的研究中,根据对自然语言文本的上下文分析,提出了文本最小情感单元SentiGram的概念,抽取情感词及其修饰信息,不仅可以更准确地识别情感特征的极性强度,更重要的是确保了正确地识别其极性方向。对于文本的整体极性判断,提出了一种改进的极性文本分类方法,应用基于词语文本距离的情感特征极性调整方法,考虑了情感特征间的上下文相互影响关系,从而更加准确的判断文本的整体情感倾向。本文还提出了一种基于语料知识的动态极性词极性判断方法,准确的判断出极性方向可能随上下文变化的情感词极性。实验表明,改进的方法在评论文本极性分类上能取得不错的效果。对于评论文本具体观点的抽取,本文针对评论文本所处的特定领域的特点,提出了一种利用情感特征限定的频繁项挖掘技术来建立主题属性集,并分析主题词和极性成分的匹配关系,从而判断句子中每个主题相关观点的极性倾向。实验表明,本文的算法具有较好的实用性。最后,本文实现了一个面向网络评论的观点抽取原型系统。能够对于给定的评论文本,进行文本的情感倾向分析,并抽取出具体主题的相关观点。