当前位置:问答库>论文摘要

题目:基于众包技术对推荐系统的改进性研究

关键词:推荐系统;协同过滤;CrowdCF;众包;稀疏性;用户最高特定评分

  摘要


推荐系统使用知识发现技术为用户从纷繁复杂的信息,商品和服务中推荐符合用户个性化需求的信息。近年来用户数量的猛烈增长以及互联网数据的爆炸为推荐系统带来了重要技术挑战。这些挑战包括提供高质量的推荐结果、高效的推荐处理以及数据稀疏问题。作为推荐系统中最为广泛使用的技术之一,协同过滤受到数据稀疏性的很大影响,数据稀疏性仍然是当前研究中的一大难题。

基于上述背景,许多研究者致力于解决数据稀疏性问题。其中有望取得突破的一个方向是使用众包技术。最近的研究成果CrowdCF通过众包来降低数据稀疏性,可以提高推荐系统中协同过滤的性能。在CrowdCF中有如下两个关键问题:(1)如何为众包工人选择打分的项目,(2)如何决定工人的最低工作量。

首先,本文主要关注于采集策略,即如何为众包工人选择待评价的项目。在过去的工作中有七种策略,其中三种与本文相关的策略为热门度、最高评分和熵策略。这些策略与本文所提出的策略相关,但它们仍然存在改进空间。

其次,本文提出一种新的基于用户和商品之间的关系所构建的选择策略。像每个普通人一样,工人也有他们的偏好,可以针对工人为他们展示特定的物品。考虑工人的喜好,将物品按照类别进行归类,令工人可以表现对一类物品的兴趣。在这种情况下,针对工人对物品类别的兴趣,选择展示的物品让他们进行评价,由此解决数据稀疏性的问题。这种方法有一组新的值,用以表示用户对一类物品的平均兴趣评分,这种策略称为用户最高特定评分策略。

最终,针对提出的方法进行了如下几个实验。(1)从Movielens数据集中随机选择8个用户并分析他们所选择的电影。结果证明8个用户里有7个用户在选择电影类别上有明显的倾斜现象。这证实了本文关于用户选择具有偏向性的假设,从而允许在真实数据集上展开实验的下一个阶段。(2)基于所提出的策略从工人收集的评分开展了实验。(3)最后,使用基于用户的协同过滤算法,使用matlab基于cosine相似度计算用户之间的相似度。实验结果显示所提出的方法成功地在每个工人身上多采集了3%的评分数据。在推荐性能的测试中,使用MAE作为测试指标,发现基于用户的协同过滤算法的性能提升了0.08和0.04。实验证明提出的基于众包技术的方法可以有效的提升推荐系统的性能。