● 摘要
随着Web2.0的蓬勃迅猛发展,越来越多的用户习惯于在互联网上发布自己的观点、分享个人生活体验、与朋友交流互动,由此推动了社交网络的快速发展。微博作为一个综合性的社交网络平台,给用户提供了便捷的网上沟通渠道和丰富新鲜的信息内容,迅速成为最受网民欢迎的社交网络平台。正是由于微博蕴含的数据与信息规模相当庞大,迫切需要利用计算机技术来帮助用户对其进行分析与处理。在此背景下,社交网络分析技术应运而生,并迅速引起学界和互联网企业的广泛关注和高度重视,而面向社交网络的情感分析技术就是其重要的组成部分和研究热点。
目前针对英文文本的情感分析技术,已经取得了不少成果。然而,中文微博以其语言简短、文法灵活的特点,给情感分析的研究工作带来了新的挑战。本文首先分析了国内外情感分析技术的研究现状,然后针对中文微博的特点,对包括数据预处理、情感词典构造、融合话题特征进行情感倾向分类等中文微博情感分析的关键技术进行了系统的研究,主要研究工作包括:
1. 提出了一种情感词极性程度分级算法,对情感词典中包含的情感词进行了细粒度的划分,从而提升情感分析的准确度;
2. 提出了一种面向话题的情感分析自适应算法,进而更为准确地识别出和话题相关的情感词集,进一步提升情感分析的准确度。通过基于支持向量机(SVM)的情感倾向分类方法的对比实验,验证了本文方法的可行性;
3. 本文实现了一个基于微博评论的手机产品评价系统,针对具体的手机产品型号进行数据收集和分析,最终展示针对特定型号手机产品的各类属性的评价信息。