● 摘要
随着社交媒体(如论坛、微博,博客等)的出现,人们越来越习惯在网上通过评论来表达自己的情感(如开心、悲伤、愤怒等)和观点(如支持、反对等),由此产生了大量带有情感倾向性的评论信息文本。然而仅靠人工方法很难对这些带有不同情感色彩的评论信息进行收集、处理和分类,所以迫切需要计算机帮助用户收集处理这些评论信息,由此产生了文本情感分析技术。
目前国内外的情感分析研究主要是针对产品评论的,提出了各种产品评论的情感分析方法,并且取得了不错的效果,但是这些方法并不适用于论坛评论,目前对论坛评论的情感分析研究也非常的少,这主要都是因为论坛评论具有格式不规范、随意性大、长短不定、评论对象不明确、噪声多、含有大量缩写简写、网络用语、讽刺和反语等特点,这些特点都加大了对论坛评论进行情感分析研究的难度。虽然对论坛评论进行情感分析研究有很大难度,但其在了解和掌握广大网络用户关于热点新闻、热点事件、热点人物、热点话题等的舆论倾向方面有很大应用价值,而且解决论坛评论情感分析研究中的一些难题,对产品评论、微博评论的情感分析研究也会有很大益处。因此本文选择中文论坛评论的情感分析研究作为研究内容。
针对中文论坛评论的情感分析研究,本文研究内容主要包括情感分析问题建模、评论对象提取、情感信息分类和情感信息归纳。本文工作的贡献主要体现在以下几个方面:
(1)对中文论坛评论的情感分析问题进行重新建模,该模型相对于过去的模型粒度更细,包含的情感信息更多。
(2)为了提取论坛评论的评论对象,本文提出了一个词性模型,并设计了基于词性模型的评论对象提取算法,同时本文根据汉语语言表达前后一致性的原则设计了隐式评论对象提取算法,基于中心理论设计了指代消解算法。本文还首次定义了评论对象权重计算方法来计算各个评论对象的权重。最后通过对比实验,本文提出的评论对象提取算法表现出了更好的性能,平均准确率提高了20%左右。
(3)为了对论坛评论进行情感分类,本文从评论中选取有效特征,并组合这些特征来训练SVM分类器,设计了基于SVM的情感分类算法,实验结果表明本文提出的方法是有效的,平均准确率最高达到了87.27%。
相关内容
相关标签