● 摘要
互联网改变了人与人之间的沟通方式,使得人们的交流更为便捷、有效。随着万维网技术的发展、智能终端设备的普及以及无线网络性能的提升,移动互联网逐渐兴起。在此背景下,基于社交网络平台,人们可以随时、随地分享自己的心情、表达自己的看法、评价别人的观点等。人们在社交网络中的活动,产生了大量的数据,通常称为社交大数据。社交大数据记录了与人相关的众多信息,比如,兴趣、观点、态度、位置等。挖掘和分析这些数据对研究人类活动规律、建立用户模型,进而提供个性化服务具有重要意义。然而,社交大数据大都是非结构化数据,这就给信息提取带来了困难。
本文主要研究在社交网络中,预测热点事件这一科学问题。热点事件是大众当前关注的重点。根据关注群体的不同,热点事件具有不同的粒度和类型。热点事件的挖掘和预测,对我们发现用户群体、研究群体的活动规律和兴趣,并做出智能决策具有重要意义。社交网络中用户活动产生的大量数据为热点事件的预测提供了基础。已有的研究主要通过对数据内容的提取和分析,预测热点事件,比如,统计关键词的频率等。然而,社交网络中,用户产生的非结构化数据具有实时性、多样性及高动态性等特征,因此,针对内容的处理相对比较困难。并且,已有的方法无法判断关注热点事件的用户群体,也就无法获取小众范围内的热点事件。实际上,用户在社交活动中产生的内容并不是孤立的,相反,它们通过社会交互相互关联。“人”作为社交网络中的重要元素,应该考虑其在非结构化数据处理过程中的作用。因此,通过分析用户之间的交互以及交互强度在热点事件发展过程中的变化规律,可以预测热点事件的发展趋势。同时,通过对用户进行社区划分,根据社区规模的大小,可以挖掘小众到大众范围内具有不同粒度的热点事件。
预测分析已经成为大数据的重要应用之一。已有的热点事件预测研究中主要分析用户生成的内容,忽略了群体行为的作用。然而,群体行为具有持续性,有助于热点事件的预测。并且,热点事件的发生、发展过程与群体用户的交互强度强相关,与具体事件的语义弱相关。基于此,本文提出融入群体交互的思想,进行热点事件的检测和预测。另外,本文考虑两种类型的交互,分别是隐式交互和显式交互。隐式交互是指用户之间潜在兴趣的一次表达,比如两个用户标注了共同的资源。显式交互是指用户之间直接发生的互动,比如两个用户之间相互进行了评论、回复等。本文的研究思路如下:首先,通过分析热点事件的形成和发展规律,对其进行初步认知;然后,通过无监督事件检测方法,发现社交大数据中的事件集合;最后,建立用户交互模型,通过时间序列方法预测用户交互概率,实现对事件发展趋势的预测。
针对以上的分析,本文做了一些创新性的工作,具体的研究成果如下:
1、使用拓扑势方法分析微博中的热点事件,证明交互强度可以表示热点事件的热度
为了研究热点事件的发展过程,爬取了新浪微博中与某热点事件相关的数据。使用节点表示用户,边表示用户之间的交互,考虑用户之间的转发和评论两种交互,构建交互图。使用拓扑势方法计算用户之间的交互强度,并且,通过分析交互强度的变化,研究热点事件的演化规律。研究结果表明,交互强度的变化与热点事件的发展过程保持一致,因此,可以用交互强度表示热点事件的热度;并且,热点事件中存在交互强度突发的阶段;另外,相比评论行为,转发行为有助于信息的扩散,对热点事件的发展具有更大的推动作用。
2、研究社会标注行为中的幂律特性,说明社交网络中的用户活动是有规律的,社会交互可以用于分析和预测热点事件
人的行为规律是研究热点事件的基础。在社交网络中,看似杂乱无章的用户活动,实际上,具有一定的规律性,幂律特性是其中重要的属性之一。本文通过研究用户活动所体现出来的幂律特性,说明用户交互的规律性。社会标注是大众参与的社交活动,因此,我们选取社会标注系统作为研究载体。首先,总结和分析社会标注系统中存在的幂律特性;然后,借助RGF(Random Group Formation)模型,对标签使用频率的幂律分布进行了分析。结果表明,用户之间的模仿是幂律分布的主要成因;在好友范围内的标签使用频率服从幂律分布;随着数据量的增加,标签使用频率幂律分布的幂指数具有减小的趋势,这说明用户通过标注活动进行潜在交互,对资源的描述逐渐收敛到一致状态,导致系统越来越稳定。
3、提出基于云模型的无监督事件检测方法,结果表明对事件数量的不确定性度量可以检测多粒度事件
事件检测方法用于在数据流中发现事件集合,是热点事件预测的基础。在给定的数据集中,无监督机器学习方法根据数据特征之间的相似性进行事件检测。本质上,事件检测过程是一个动态社区检测的过程。在无监督动态社区检测方法中,社区的个数是不确定的。因此,本文使用不确定性知识表示的工具——云模型,来度量这种不确定性。融合用户交互的内容和用户之间的隐式交互关系,提出一种基于云模型的动态社区检测方法。研究结果表明,本文所提出的方法可以有效地提取不同粒度的社区;同时,考虑用户之间的隐式交互关系,更容易将兴趣相似的用户聚集在一起;另外,社区在演化过程中,具有固定属性和突发属性。
4、提出基于局部敏感哈希的增量式事件检测方法,结果表明增量式算法的时间复杂度为常数O(1),该方法可以实时地在数据流中发现事件集合;并且,在MovieLens、LastFM和Del.icio.us数据集上的准确率分别为0.51、0.78和0.73
热点事件检测具有实时性的要求。用户持续活动产生的数据可以看作数据流,有效地处理数据流是大数据研究的重要方向之一。为了在数据流中实时地检测事件,本文提出一种基于局部敏感哈希的增量式社区检测方法。该方法首先使用标签等数据构建用户模型;然后,将用户模型映射成哈希签名;进而,通过计算哈希签名之间的距离,提高最近邻查找的效率,达到高效社区检测的目的。研究结果表明,所提出方法只处理受到新数据影响的用户,并且,局部敏感哈希方法进行社区划分的时间固定,因此,社区检测的时间复杂度为O(1),而其它两个流行的流式数据聚类算法的时间复杂度为O(n),n为已经处理的标签分配的个数;由于考虑了用户之间的隐式交互及其时间属性,所提方法的准确率高于其它两个流行的对比方法。
5、基于拓扑势思想提出对社会标注系统建模的方法,结果表明拓扑势思想可以描述用户标注中的认知过程,生成标签频率幂律分布的幂指数与实际数据中幂指数之间的平均误差为0.13,用户认知过程有助于对社会标注系统建模
由于缺少“类标签”信息,对无监督事件检测算法的评估存在困难。其中一个解决方法是使用虚拟数据(Synthetic Data)。为了生成虚拟数据,需要对系统进行建模。已有的社会标注模型考虑用户之间的模仿关系,却忽略了用户的主体属性。因此,本文通过构建用户模型,并且融入用户之间的相似度,借助拓扑势思想对用户重要性进行度量,提出了对社会标注系统建模的增长模型。该模型使用隐式交互图表示用户之间的关系,使用标签向量表示用户的属性,通过隐式交互图的增长描述标注系统的演化规律。研究结果表明,利用所提出方法得到的标签使用频率分布和现实数据中的分布保持一致;与偏好依附方法相比,该方法生成的隐式交互图具有更大的平均集聚系数和更小的平均最短路径,因此,该方法能够更好地将用户聚集成社区。
6、提出一个基于动态贝叶斯网络的热点事件预测模型,结果表明,所提出模型的预测结果与实际事件具有一致性,并且,对于“总统选举”和“喜剧”事件预测的一致性分别为0.92和0.97,因此,通过社会交互对热点事件进行预测是可行的
在事件检测的基础上,对事件的发展趋势进行预测。社会交互的历史数据对事件的发展具有一定的影响。但是,这种影响随着时间逐渐衰减。为了更加准确地描述事件发展过程,提出了随时间衰减的交互图。通过分析该交互图,研究事件发展过程中,用户交互体现出来的全局属性、局部属性、话题属性和社区属性。研究结果表明,事件中的交互具有幂律特性;用户之间的交互发生在3跳左右的局部范围内;交互图的交互强度可以描述热点事件的发展过程;在热点事件发展的高峰期,出现高度活跃的社区。
动态贝叶斯网络(Dynamic Bayesian Networks,DBNs)是在时间序列上进行预测的有力工具。基于时间衰减交互图的研究,考虑用户交互受到历史交互数据的影响,使用DBNs对用户建模,提出一个热点事件预测模型。实验结果表明,利用提出模型预测的事件未来发展趋势与现实事件保持一致。
相关内容
相关标签