● 摘要
最近几年,越来越多的用户注册并关注微博。微博是一种新型广播媒介,不同于传统媒介,允许用户交流短小的数字内容。诸多用户、集体、组织和许多不同学科研究学者,开始分析、学习和研究微博,也因此微博获得了越来越多的关注。和传统媒体相比,其具有独特的通信服务,如即时性、便捷性、丰富性和易用性,允许用户做出快速响应,也允许用户没有限制地传播信息和内容。由于部分微博没有地理位置,仅仅依赖带有地理位置微博的区域事件检测就显得不是很准确。
本文以新浪微博为研究载体,考虑空间和时间,挖掘分词的空间特点来标志城市,挖掘时间因素对推测结果的影响,研究各个城市微博的特点,从而达到推测微博地理位置的目的。在推测的基础上,检测城市事件。建立时空索引,存储微博数据。
推测方法主要依据微博分词的空间分布特征,考虑城市间词的分布情况和城市内词的分布情况,更加准确地计算城市所有词的敏感度,每一个城市都可以用敏感词作为标志。借助于敏感词,推测微博地理位置。在推测过程中,需要考虑微博内容随时间的变化。
优化传统的矩阵分解和非负矩阵分解方法,进行微博聚类和事件检测。矩阵分解将“词×微博”矩阵分解成为“词×事件”矩阵和“微博×事件”。“词×事件”矩阵衡量每个词和事件的相关性,“微博×事件”矩阵衡量每条微博和事件的相关性。矩阵权重同样也很重要。“词×微博”矩阵是一个稀疏矩阵,分解得到的两个矩阵也是稀疏矩阵。维度比较大的情况下,不能使用二维数组直接进行分解,采用压缩矩阵更为合适。矩阵分解的传统方法效率不是很高,需要对传统方法进行优化和改进。
最后,给出城市事件检测系统的整体架构。通过挖掘微博的空间和时间特征,推测微博地理位置,进而通过矩阵分解,进行微博聚类和事件检测,提供给用户事件相关的词列表。一部分微博原本带有地理位置;另一部分微博是没有地理位置。随着微博不断更新,数据量会越积越多,为了方便以后的使用和研究,以时间和空间为索引,存储这些数据。