当前位置:问答库>论文摘要

题目:面向产品评论的情感分析关键技术研究

关键词:观点抽取,情感分类,情感归纳,意见挖掘,情感分析,极性分析

  摘要

随着Internet的迅速发展,越来越多的用户在互联网上分享自己的观点或体验,网络观点信息对人们生活的影响已经越来越不容忽视。这些信息数量庞大,具强烈的主观性,表达方式相当自由,且不规范。如何对其进行检索和挖掘,从中发现有价值的知识,对于主要针对客观文本的传统信息检索、挖掘和抽取技术来说,是一个新的挑战和机遇。本文以产品评论为研究对象,通过对情感分析相关技术和理论的研究,分析了情感分析的主要研究内容、技术路线和技术难点,并对观点抽取、文本极性分析和多文档观点摘要技术等关键问题进行了深入的探讨。在此基础上,本文依据知网构建了一个可扩展的情感词词典。通过对评论文本的预处理,抽取其中的情感特征。与传统研究方法中基于主题(属性)来查找情感特征的方法不同,本文通过情感特征来寻找相应的主题属性。在研究中我们发现情感词与其主题词之间的句法依存关系有着非常明显的特征,少数依存关系模式有着较高的出现频率。据此,我们提出了一种基于情感特征与主题词之间的句法依存关系模式的观点抽取方法,达到了较高的准确率。与传统的观点抽取研究中所采用的基于人工的规则编写方式不同,我们通过训练自动发现那些高频的句法依存关系模式,更加高效,且易于推广。由于上述方法中只考虑了高频的句法依存关系模式,不能覆盖所有的情况。本文进一步提出采用基于语料库的频繁项挖掘的方法来建立情感词和主题之间的共现关系,并在此基础上进行主题识别和观点抽取的方法。实验证明,两种方法的结合取得了良好的抽取效果。然后,本文利用情感词词典对观点进行极性判断。对于那些未登录的情感词,采用基于知网和同义词词林的相似度计算方法,计算未登录词的极性。为了提高判断的准确性,本文还综合考虑了情感词所处的上下文环境对其极性的影响,对其极性进行了调整。对于那些具有动态极性的词,则通过训练找到它与其他词在不同搭配下的极性取值概率,并综合考虑实际的上下文环境判断其极性。在上述工作的基础上,本文提出了一个基于评价文本的文本特征和情感特征的篇章级极性分类方法。通过抽取待分类文本中的观点,构造面向情感特征的文本向量,适当突出其情感特征的权重,采用SVM算法进行分类,取得了良好的分类效果。接着,本文采用基于词频的句子权重计算方法,高效地选择候选摘要句。并通过观点抽取和观点极性计算构造每个句子的观点集合,在此基础上形成多评价文本的核心观点。接着,设计了一种基于观点的句子相似性的计算方法,按照句子权重顺序,通过计算各候选摘要句与核心观点之间的相似度,找到最适当的句子形成摘要。这种方法结合了多文档摘要技术和观点抽取技术、观点极性计算技术等,同时兼顾了词频特征和情感特征,能够产生良好的摘要信息。此外,根据评价信息的检索需求,基于上述方法产生的摘要和领域本体,设计了一个评价信息的排序算法,取得了良好的实验效果。最后,本章基于搜集研究相关语料和科技资源信息整合的目的,设计了一种Web对象挖掘算法。该算法依据Web对象内容较为丰富的特点,采用一种信息熵剪枝的方法,对导航、广告等非Web对象进行了过滤;同时,根据Web对象信息在DOM标签方面的构成上具有相似性的情况确定Web对象所在区域。经实验验证达到了良好的效果。