● 摘要
以云计算和物联网为代表的互联网信息技术迅猛发展,人类社会进入“无处不网、无时不网、人人上网、时时在线”的新纪元,用户产生的内容(User Generated Content, UGC)成为互联网信息的主体。UGC不仅数据量巨大而且绝大多数是非结构化数据,当用户面对这些数据时会遭遇所谓的“信息过载”问题。推荐引擎被认为最有希望解决该问题,但是传统推荐方法处理UGC面临着特征提取、数据稀疏、推荐的个性化和多样性等诸多挑战。近年来兴起的社会标注不仅能很好的描述资源特征,而且标签本身蕴涵了丰富的标注者个人信息。此外,在社会标注系统中还存在着社交网络,拓展了用户个性化信息的来源。社会标注与推荐系统的结合,将成为解决上述挑战的一个可行的方法。本文正是以社会标注与推荐系统融合为切入点,通过对典型社会标注系统实证分析,围绕社会标注中的标签、资源和用户三个要素,在认知的物理学方法思路下,综合运用云模型、数据场与拓扑势方法,研究社会标注的个性化推荐问题。论文的创新点表现在:1. 针对基于社会网络整体统计指标的用户影响力度量,不能体现用户的主体性与用户之间影响的局域性。提出基于拓扑势的在线社会网络用户影响力度量方法,定量表征用户的主体行为以及用户之间相互作用的强度,反映了相互作用随距离衰减的特性。2. 针对社会标注系统中标签稀疏、用户参与标注的热情不高的问题,本文提出一种基于用户影响力的个性化标签推荐方法。该方法强调用户社交网络挖掘,通过用户影响力的度量,选择具有实际影响的邻居节点构成偏好社区,形成一个融合全局、局部(社区)以及个人偏好的个性化标签推荐。实验结果表明,与基于全局的同现方法相比,S@3从68%提高到87%;与主流的社会化推荐方法相比,P@5有5%的提升。3. 针对传统基于标签的资源推荐方法个性化程度不高,用户偏好和资源特征的粗粒度匹配问题,提出融合数据场标签聚类的资源推荐方法。用数据场描述标签空间的原始数据分布和自组织聚集特性,获取不同主题下的用户需求,提高了资源匹配效果。实验结果表明,该方法与其他聚类或者协同过滤推荐方法相比,无论在推荐成功率、准确性以及可实现等方面都取得了较好的效果,准确率和召回率获得大约5%的提升。4. 针对基于标签的资源推荐算法偏向于推荐热门资源,推荐多样性和新颖性不足的问题,提出基于云模型的推荐准确性与多样性平衡的解决方法。利用云模型对不确定性知识的表示能力,构建了用户偏好云和项目评分云,基于用户相似度、项目相似度、用户偏好云相似度和项目评分云相似度,设计并实现了一种混合的自适应推荐框架。实验结果表明,该方法多样性的提高不是以牺牲准确性为代价的,算法较好的兼顾了推荐的准确性与多样性。