当前位置:问答库>论文摘要

题目:社交网络事件在线检测方法的研究与实现

关键词:社交网络; 在线事件检测; 主题模型; 分布式算法; Spark

  摘要


社交网络(如:微博、Twitter等)作为一种新型的在线社交方式,逐渐成为人们获取与共享信息的重要公共平台,并且已经逐渐成为人们发布信息以及接受信息的一种重要的途径。用户通过社交网络每天发布与关注的大量的信息,一定程度上反映了当前社会的事情发展动态,使通过社交网络内容获取当前社会关注事件的发生和发展动态成为可能。通过对社会关注的事件分析,可以了解当前社交网络用户的关注点以及社会关注的动态,对于用户的消息推荐、基于内容的好友推荐以及社会舆情分析都有着十分重要的作用。

针对社交网络事件检测的现有算法主要分为两类:一、基于指定特征的事件检测算法,通过监测事件相关的特征检测事件,但是缺乏夯实的概率学背景,并且也无法检测其他特征和未知特征的事件;二、基于主题模型的事件检测算法,通过概率图模型理论建模事件,解决了第一类算法中的问题,但是缺乏对社交网络文本以外的事件相关信息的有效利用,并且依然存在无法建模事件主题的演化与不能及时处理社交网络大规模数据的问题。

            针对以上问题,本文提出了一种社交网络特征与主题模型相结合的分布式增量事件检测算法。实现了在线检测社交网络事件。本文的主要工作如下:

针对缺乏对社交网络事件相关信息有效利用的问题,通过对概率图模型的研究,提出了一种社交网络事件检测模型BEE(Bursty Event dEtection),实现了综合消息时间、文本内容与主题标签三种信息建模社交网络事件,实验表明在检测社交网络事件中BEE模型的检测结果优于基准算法。

针对无法建模事件主题演化的问题,通过对概率图模型增量算法的研究,提出BEE模型的增量式参数估计算法,实现在线检测事件,实验表明本算法能够构建相邻时间段的事件关系,完成事件的演化分析。

针对单台计算机无法处理大量的社交网络数据的问题,通过对分布式算法的研究,提出了BEE模型增量参数估计的分布式计算方法,实现了基于分布式内存计算平台Spark的在线检测事件,实验表明本算法的分布式设计方法具有良好的扩展性。

最后,本文基于上述的研究工作,完成了面向新浪微博数据的事件检测原型系统,并且在北京航空航天大学计算机学院新技术研究所(ACT)的RING系统中设计并实现了事件关联分析模块。