当前位置:问答库>论文摘要

题目:基于双反馈循环神经网络的情感分析研究

关键词:数据活化;机器学习;神经网络;情感分析;自然语言处理

  摘要


随着社会技术的快速发展,来自博客,论坛,产品评价以及社会媒体的公众意见信息变得越来越多。网民也习惯于在做购买商品,购买股票的时候,从其他人中获取重要意见信息。例如,在购买一个商品的时候,越来越多的人首先从已有用户对商品的评价中做调查,从而获得重要的信息来作决策。商业公司也广泛地紧密的关注自己的品牌,产品或者服务,并且认真的听取公众的批评和意见。快速聚集的大量的情感意见资料,需要快速有效的方法来抽取信息并分析它们, 实现海量多源多模数据的处理,活化这些数据。研究者们致力于研究情感分析技术,分析推特,博客,产品评价中文字所表达意见,情感,态度和表情,以至于解决上述提到的问题。

目前为止,研究者提出了很多方法来进行情感分析。直观上来说,很多基于词袋的分类模型能够应用过来解决这个问题。基于词袋的模型也广泛的应用在信息检索领域,因为简单,容易实现,鲁棒性较强,性能非常优越。基于词袋依赖词在文档中的出现关系,因此能够避免语言的多形态问题,能够捕捉到字符级别的简单的模式。尽管在应用中的性能很好,但是如果直接将它应用到情感分析中的话还有很多的问题和挑战。

基于词袋表示模型的其中之一挑战是怎样去捕捉情感分析中的语言学模式。一般来说,一段文本中包含语法和语义的信息,然而词袋模型通常会忽略像词序等结构信息。因此,在某些情况下,尽管两个表述具有相同的,但是原文本表述的意义可能截然相反。其中可能的一个原因就是,仅仅用单词在单词列表中的索引来表示单词,这样不能得到单词之间丰富的语法和语义关系。

为了解决这个问题,研究者们提出了面向语义的方法,试图将语义信息增加到情感分析中。这样的方法依赖标注的方式,来为一句话中的单词或者词语增加极性的信息。尽管集成额外的语义信息看起来非常的有希望,但是自动标注的技术仍然是个很大的挑战,这样就很难做到大规模化,或者根据现有的工作转移到另外一个语言上。

另外一种可替代的方法是尝试利用简单的词袋模型,但是这种模型依赖外部的资源来提高扩展性。这样的方法利用了文本表述中的词典和结构信息来计算情感的类别。一个典型的问题是所谓的表述原子的问题,一段文本中的表述不仅仅依赖单个词,还依赖一组词的共同作用。

在本论文中,因为结构信息在情感分析中的地位很重要。通过分析文本中段和段之间的结构关系,我们提出了一种创新的方法来提高极性分类性能。基本的假设是因为一段文本中短语和句子之间是直接与整体的极性有关系,所以他们之间的表达顺序是对情感分析的重要因素。

为了最大的分利用文本中句子顺序的关系,我们提出了使用循环神经网络(RNN)模型来提高分类的性能。循环神经网络在结构数据预测中取得了很好的效果,广泛地应用在自然语言处理的各个领域中。在循环神经网络的基础之上,我们提出了新的双循环模型来捕捉语句顺序表达对极性的关系。直观上来讲,这种顺序信息,相比词袋模型来说,能够包含更多的信息。此外,提出的模型能够利用额外的无标注的信息来进行无监督的预训练,目的在于预先学习模型中输入层和隐藏层之间的权重,这个权重又叫做词向量,之后再使用有标注的书序进行校正。在这个训练过程中,各个层之间的权重,或者说参数,以监督的方法通过传统的反向传播算法学习。因此,在本文中,我们利用了半监督的学习方式来训练模型,最终实验证明,这种方式提高了分类性能。

必须指出的是,在训练过程中,前一个时刻情感极性的概率分布对下一个时刻极性有较大的帮助。根据这个现象,我们修改了传统的Elman结构的循环神经网络的结构,来适应我们上述的发现。Elman结构的循环神经网络包括,输入层,隐含层,输出层,输入层和隐含层之间的连接,隐含层和输出层之间的连接,隐含层节点之间的全连接。除此之外,我们增加了输出层之间的全连接,隐式的来对上一个时刻情感极性和当前时刻的情感极性进行建模。在半监督的双循环神经网络,输入层表示单词在单词表中的索引号,输出层表示极性概率分布。最后时刻的输出层的结果表示文本最终的情感极性分布。