● 摘要
在大数据时代,层出不穷的互联网文本成为人们发表观点和交流情感的重要载体,这些数据往往蕴含着丰富的个人情感,研究如何快速获取文本主旨,挖掘数据包含的情感倾向信息,并以有效的可视化形式展示,能够给政府、企业等机构提供决策依据,对于舆情监控、决策支持具有重要的意义。
词云图通过差异化的字体来展现高频词语的频次,是简明表达文本内容的有效可视化形式。本文在基于词频的词云图上添加了情感倾向、时序变化,设计实现了展示文本作者的关注度、情感倾向、时间变化的多重语义词云图,提供用户快速获取批量文本主旨的软件工具。
论文的主要工作如下:
(1)基于词频的关键主题词抽取及词云图可视化。采用向量空间模型形式化表示文本,对文本进行中文分词,统计词频,提取词频满足阈值要求的词语作为关键主题词,采用“词频权值法”确定关键主题词的权重。将关键主题词词频映射为显示该词语的字号,生成基本词云图。
(2)文本情感倾向分析及词云图可视化。设计了一个含时间序列的情感倾向分析方案,该方案采用SVM方法提取蕴含情感信息的主观文本,基于构建的情感词典计算主观文本中的情感,得出作者对关键主题词的情感倾向,包括情感极性和强度。将情感值映射为颜色RGB值,以词云图中词语色彩反映情感倾向的差异。
(3)情感倾向的时间序列分段及词云图可视化。以作者的情感极性变化为分段依据,对情感倾向的时间序列分段,采用加权计算各时间段内关键主题词的情感。在词云图中以字体色彩渐变表示时间序列上的情感变化。
基于以上研究,在实验室“基于多语义词云图的人物资料智能导读与分析系统”中设计并实现了多重语义的词云图,验证了多重语义分析的有效性及可视化效果。
相关内容
相关标签