● 摘要
随着近几年Twitter、新浪微博等社交网络的兴起,关于社交网络的研究也不断增多。话题检测是很多研究者关注的内容,然而目前还没有将“行业”这一重要的社会关系引入话题检测的研究。通过对用户进行行业分类,能够更为准确的分析个体和群体的行为,从而检测发现关注度较低的行业人士热烈讨论的话题,这将有利于对这些行业实现微博舆论的监测、引导以及控制。
本文将算法拆分为用户行业分类和微博话题检测两个子问题。进行行业分类时,在常规文本分类算法中引入了主成分分析的方法来对文本向量进行数据预处理和特征提取以后的第三次降维,提高了分类算法效率。然后再给以用户个人信息、用户发布微博、用户社交关系不同的权重,采用基于支持向量机的用户行业分类算法对给定用户进行行业判断。在话题检测算法中,通过对话题进行相关度评分,将与话题不太相关的微博在聚类前进行噪声过滤。在使用Single-pass算法聚类出可能的话题簇以后通过计算话题热度,将话题热度低于阀值的话题簇标记,从而得到该行业的热点话题。
为了验证算法,本文设计并实现了融合行业分类的新浪微博话题检测系统。该系统能够较为准确的分析用户行业,也能够较好的检测出当前微博网络中讨论的热点话题,综合说来,能够成功检测出用户较少的行业中讨论的热点话题。
相关内容
相关标签