当前位置:问答库>论文摘要

题目:基于突发特征的微博热点话题检测系统

关键词:话题检测,突发特征,社交网络

  摘要

作为一种新兴的社交网络,微博目前发展迅速,并逐渐成为人们发布个人信息、接受所关注信息的一种重要平台。从大量的不规范的实时微博数据中挖掘出人们关注的热点话题,可以帮助用户了解最新的社会动态,同时也是网络舆情分析的重要的研究内容之一。由于微博文本的稀疏性,以往的针对新闻报道等长文本的话题检测与追踪(TDT)技术应用在微博数据上难以获得良好的效果。针对微博的用户交互性和数据稀疏性等特点,本文设计并实现了一个基于突发特征的微博热点话题检测系统。 本文的工作主要有以下三个方面:(1)基于人物权威度的特征建模方法。微博作为一种社交平台,微博的传播能力除了与其文本有关,还与用户的影响力有密切的关系,因此本文提出了一种基于人物权威度的特征建模方法,利用微博用户的影响力以及特征词频来计算特征权重。(2)增量式的突发特征检测方法。Kleinberg的无限状态机模型是一种回顾式的突发特征检测方法,不适用于大规模实时的微博数据,并且该方法只运用了特征频率这一个特征值,为了解决大规模微博数据的实时处理问题,本文根据微博数据的社交属性提出了一种增量式的突发特征检测算法,该方法能够高效实时地检测出突发特征。(3)基于突发特征的微博热点话题检测算法。由于微博特征的稀疏性,本文利用同步的新闻文本来扩充微博文本特征,结合检测出的突发特征在微博中的共现关系以及在新闻文本中的共现关系计算特征间的关联强度,构建出特征间的关联图,并根据该图检测出热点话题。最后,本文基于上述工作实现了微博热点话题检测系统,该系统能够增量检测微博上的热点话题。实验结果表明,本文提出的方法在性能上优于现有的微博热点话题检测方法。