● 摘要
随着Web2.0时代的到来,各类社交网站逐渐兴起,成为用户在互联网上交流的重要媒介。社交网站产生了海量用户信息,例如:用户发表的状态、微博等社交文本信息;用户好友、关注、群组等社交关系信息。社交网站产生的海量信息蕴含着大量有价值的用户信息,如用户情感、用户兴趣、用户社交关系等。因此海量用户信息引起了社会科学领域、计算机领域相关研究者的重视,并逐渐成为研究热点。在社交网站产生的海量用户信息中以社交文本信息最为重要,因此对社交文本的挖掘成为自然语言处理领域新的研究热点,同时它又是一项融合了心理学、社会关系学、信息检索、数据挖掘、人工智能等多种技术的跨学科研究课题。本文主要从情感识别及用户关键词提取两个方面进行社交文本的挖掘。针对中文社交语料库不足的情况,建立了以新浪微博为原始语料的中文社交文本语料库。本文提出了基于用户的微博情感识别,即对每个用户的微博进行情感极性的识别。针对微博信息特点,本文分别从统计方面及语义方面设计了四个情感特征,并利用支持向量机进行正负情感极性的分类。此外,本文提出了一种结合潜在语义分析及TextRank算法的用户关键词提取算法。首先通过潜在语义分析获得词语之间的语义关系,然后利用该语义关系进行文档图的构建,并对词进行排序,从而得到候选关键词列表。最后,本文结合新浪微博API设计了情感分析系统,实现对用户微博的实时提取及用户关键词的显示。
相关内容
相关标签