当前位置:问答库>论文摘要

题目:结合用户兴趣的微博话题检测与跟踪

关键词:话题检测与跟踪;主题模型;用户兴趣;微博

  摘要

随着Web2.0技术和无线网络技术的发展,微博也迅速发展起来。由于微博的便捷性、草根性和实时性等特点,微博信息变得庞大而又分散。用户很难从海量而又分散的微博信息流中找到感兴趣话题的微博,并获得该话题的后续微博。因此迫切需要现代信息检索和数据挖掘等技术实现话题的自动检测与跟踪(Topic Detection and Tracking, TDT),进而从海量微博信息流中快速挖掘出用户感兴趣的话题。本文首先分析了国内外话题检测与跟踪技术的研究现状。然后,针对传统的话题检测与跟踪技术应用于微博数据流所面临的问题,给出了一种结合用户兴趣的微博话题检测与跟踪方法,该方法包含如下步骤:首先将微博短文本映射到低维的潜在主题向量空间模型,以解决微博数据的高维度问题;然后通过将同一用户的微博整合成一篇单独的文档,构建基于主题模型的用户兴趣模型,克服微博短文本的数据稀疏问题;最后结合Single-Pass聚类和层次聚类的优点,给出了一种增量式双层混合聚类算法,在取得高效的聚类性能的同时保证聚类结果的质量。最后,基于上述方法,本文实现了一个结合用户兴趣的中文微博话题检测与跟踪系统,能对实时的微博数据流中的话题进行自动检测与跟踪,并以网站的形式展示检测到的话题。通过利用人工标注的语料集对系统进行了自动评测,评测结果表明:该系统相对于已有的SP&HA方法,降低了漏检率,提高了主题类话题的检测性能。