● 摘要
随着在线社交网络的快速兴起,人们获取信息和分享信息的途径正在发生改变。以微博和微信为代表的社交媒体已经深深改变了人们的生活和社交行为,新的信息传播模式随之产生。在线社交网络的特点之一是信息的快速传播和频繁交互,为了更好的研究信息传播的规律和社交网络的特性,比如信息传播过程中的影响力最大化分析,关键节点发现,信息传播溯源和预测等,我们需要知道信息传播网络的结构。然而,信息传播网络通常是潜在的,我们只能观察到信息包含的时间戳和文本等内容,却无法直接观测到信息传播网络。因此,如何根据观察到的数据准确的推理出潜在的传播网络结构,即信息传播网络的推理问题,具有重要的研究意义。
针对上述问题,目前已经有一些推理模型和算法,比较有代表性的工作是斯坦福大学的Gomez-Rodriguez和Jure Leskovec提出的系列网络推理模型和算法,并已经在合成网络和博客网络上进行验证。虽然现有的研究工作取得了一定的成果,但是仍然存在着许多不足,主要面临的问题和挑战包括:(1)当前的网络推理模型大多只考虑时间因素,而忽略社交网络本身的丰富特性,因此传播网络模型有待改进;(2)当前著名的网络推理算法,虽然求解效果相对较好,但速度仍然有待提高,不适用于处理大规模数据集;(3)在推理效果方面,已有算法对真实网络的学习效果比合成网络差。
本文从两方面对该问题进行研究,分别是基于子模特性的网络推理模型研究和基于凸规划解法的网络推理模型研究,均是根据信息的时间和文本内容的相似性,建立信息传播网络推理模型,并在此基础上提出网络推理算法。此外,针对典型的新浪微博事件对算法进行实验验证和分析,并将提出的算法与著名的NetInf算法进行比较。实验结果表明,本文提出的算法在传播网络推理效果上提高约2倍,并且算法的时间效率有较明显的提高。本文的研究贡献主要体现在以下几个方面:
1) 通过对现有的网络推理模型和算法的调研和分析,指出当前传播网络推理模型和算法的不足,并提出改进方法。
2) 从信息级联传播树的角度研究了信息传播网络推理问题,并提出了一种基于子模特性的传播网络推理模型和贪心近似最优算法。接着,我们简化了传播网络推理模型,提出了一种时间复杂度较低的SF-Inf算法。
3) 从生存分析的角度研究了信息传播网络推理问题,并提出了一种基于凸规划解法的信息传播网络推理模型。
4) 设计了微博平台下的信息级联传播树抽取策略,并在此基础上生成GroundTruth,用于算法性能的对比分析。此外,从网络推理效果和算法时间性能两方面,将本文提出的算法跟当前著名的NetInf算法对比,最后将推理出来的网络进行可视化分析。
相关内容
相关标签