● 摘要
21世纪是网络快速发展的时代,也是用户创造智慧的时代。网络给我们提供了无限多的资源去选择、分享,同时也带来了信息过载的问题,近年来在电子商务领域取得飞速发展的个性化推荐技术是解决这一问题的较好方案。Web2.0时代最大的特征是“以用户为中心”,集体智慧作为这个时代的核心价值观,突出显示了用户的重要性。而社会化标注既是网络环境下集体智慧的典型类型,也是Web2.0时代的标志性应用之一。因此标签为个性化资源推荐带来了新的机遇,其反映了用户对资源的偏好,也是资源特征的关键词描述。
本文主要研究如何在社会性标签系统中使用标签信息对用户进行个性化推荐,主要完成了以下5项工作:
(1)介绍了选题背景,突出基于集体智慧的标签推荐系统的设计和开发的必要性和迫切性,同时分析了目前国内外集体智慧和标签推荐系统取得的成就和存在问题,并针对这些问题设计了可行性的实施方案。
(2)介绍了集体智慧、标签系统、标签推荐系统的相关理论,以及协同过滤推荐技术、基于内容的推荐技术和混合推荐技术各自的特点。
(3)依据标签推荐系统功能的要求设计了4种标签推荐算法:PopularTags(系统中最热门的标签推荐算法)、ItemPopularTags(某个资源上最热门的标签推荐算法)、UserPopularTags(用户自己经常使用的标签推荐算法)和TagBaseSIM(改进的基于内容的标签推荐算法)。重点介绍了TagBaseSIM算法,该算法是在传统的基于内容的标签推荐算法上进行的改进,首先利用用户模型和资源模型得到该用户的偏好信息;然后将目标用户标注的所有资源的特征项以及与其相似资源的标签作为候选标签集;同时对候选标签集进行聚类分析,得到各个标签簇和资源的相似度;最后根据相似度的大小向用户推荐N个标签簇中相似度最大的标签列表。由于标签数据自身可能出现标签模糊和冗余,该方法采用标签聚类分析方法(K-means)可以有效降低此问题对于推荐质量的影响。
(4)在数据挖掘平台Sql Server 2005和Weka平台上,借助于社会化书签标记系统Delicious真实数据集,采用离线实验方法进行十次十折交叉验证实验,在这些数据集上首先分别对前三个算法进行实验,得到各个个算法的准确率、召回率和综合评价指标F1值;然后对本文提出的改进的基于内容的推荐算法和传统的基于内容推荐方法进行对照实验,结果显示,改进的基于内容的推荐算法具有更好的推荐精度。
(5)在MyEclipse平台上结合MySql数据库管理软件设计开发了针对于“信息技术教师成长发展”这一主题的一个标签推荐系统,该系统在不同的页面中使用了文中提出的四种标签推荐算法,实现向用户推荐不同的标签列表,克服了冷启动的问题。