● 摘要
随着互联网的普及和快速发展,互联网由传统的信息获取平台转化为交互性平台。越来越多的人通过微博、论坛等各种网络媒介发表对某件事物的看法。通常这些看法评价褒贬不一,侧重点各不相同,因此想人工浏览这些评论消息显然不太现实,如何从互联网的海量信息中快速准确的获取针对某一主题的评论性文本就显的十分的重要。为解决这个问题,观点检索技术的研究应运而生。观点检索,是主题检索和文本倾向性分析相结合的工作,是指充分利用信息检索和情感分析等相关技术,找出与主题相关的评论性文本,并且给出其情感倾向。目前针对观点检索的研究已经是国内外的研究热点。
本文通过对观点检索技术的分析与研究,分析了其中的倾向性分析(也叫情感分析)和观点检索模型的研究内容、技术路线和难点。对词语级别的倾向性分析、篇章级的倾向性分析和观点检索模型等关键研究点进行了深入的探讨和研究,并进行了相关的实验。
首先,本文对词语级别的倾向性分析进行了研究。词语级别的倾向性分析是篇章级别的倾向性分析的基础,必须首先进行研究。本文首先根据需要建立了一个情感词典。对于未收录在情感词典中的情感词的褒贬义的判断,本文首先分析了传统方法(基于HowNet的词汇语义倾向计算)的缺点,提出了一种融合HowNet和同义词词林的词语倾向性判断方法,并通过实验验证其的有效性。
其次,在对词语级别的倾向性分析的研究的基础之上,对篇章级的倾向性分析做了研究。首先介绍了中文情感分析常用的BaseLine算法,然后分析该算法的优缺点,然后对评论性文本的特点进行了分析,提出了一种基于焦点句和上下文的情感分析方法,通过一系列的实验,证明其的有效性。
最后,对观点检索模型进行了研究。首先比较了传统的主题检索和观点检索的区别和联系。以此为依据,将情感因素加入到主题检索模型中,提出了一种基于主题得分和情感得分的线性拟合的观点检索模型,通过实验验证其的有效性。