当前位置:问答库>论文摘要

题目:面向社会媒体信息消费服务的用户画像及推荐技术研究

关键词:用户建模;领域分类;主题识别;推荐系统

  摘要


    随着社交媒体的迅猛发展,数以亿计的活跃用户不断涌现,海量的多源异质数据得以积累,强力推动着社会化信息消费服务的发展。基于社会媒体高效搜索并融合多源异构信息,分析用户参与动机和行为模式,准确理解用户对产品和服务的体验,并形成个性化精准推荐等,逐渐成为众多高新技术企业探索社会化服务模式创新的共识,展示出广阔产业前景。因此,如何从多样异质的社会媒体数据中提取有价值的信息,计算可促进信息消费的属性,进而向用户提供高效的个性化服务成为社会媒体研究的重头戏。

    本文跟进上述研究趋势,围绕个性化信息消费服务需求开展研究。首先,以新浪微博为例提出统一的用户特征建模框架,该框架从人口统计、行为、情感、网络和兴趣五个维度刻画用户的特点,对每一类特征使用的指标以及指标反映的偏好信息进行详细阐述。然后,为了挖掘复杂的兴趣偏好信息,本文提出专门的计算模型。我们通过基于关注网络扩展领域原型用户的分类方法识别用户的兴趣领域,实验结果表明该方法在分类精度和效率上都优于基于领域词典的分类方法。本文同时利用LDA模型挖掘用户兴趣话题,并设计实验证明LDA模型在基于微博的主题识别任务上表现优于pLSI模型。

    本文还在深入分析现有关联推荐算法瓶颈的基础上,应用余弦模式反交叉支持模式的优良性质提出CORE(基于余弦模式的推荐系统)。我们先将CORE与基于模式的关联推荐算法进行比较,结果显示CORE在所有实验中的表现都优于现存的关联推荐算法。然后将CORE与经典的基于协同过滤的推荐算法进行比较,结果显示CORE在长尾性质更显著的数据上不仅可以保持较高的推荐精度,还可以推荐出更多小众项目,弥补了经典算法难于推荐冷门项目的不足。此外,我们还证明了余弦与支持度的耦合效应可以帮助CORE在推荐热门与冷门项目间自如切换。

    本文最后研究了如何应用社会媒体用户的兴趣信息提高推荐精度。我们从新浪微博2013年9月全量数据中抽取超过160万活跃用户的微博及话题参与记录,并基于此大数据研究融合语义信息的推荐算法。首先,为了提高大数据环境下的推荐效率,我们提出一种特殊的模式存储结构MP-tree和相应的模式匹配策略优化基于余弦模式的推荐算法,实验证明算法效率大大提高。接下来,我们利用LDA模型从用户微博中挖掘兴趣分布,并基于此分布对用户进行聚类,然后在每一个聚簇中进行基于余弦模式的用户话题推荐。实验结果显示,融合语义使得推荐算法精度大大提高。