● 摘要
近年来,关联分析已经成为数据挖掘领域的一个热点,并且在推荐系统中的应用占有了一席之地。关联规则挖掘主要采用“支持度—置信度”框架,这种挖掘策略会产生许多冗余的模式,其中可能包含大量无用的,甚至错误的模式。有鉴于此本文对关联分析领域的算法及兴趣度指标进行了深入的研究和讨论,建立了广义兴趣度指标的“剪枝式价值模式挖掘算法”。考虑到价值模式挖掘算法的优势和挖掘到的价值模式的优点,本文选取广义兴趣度指标中的余弦度量,建立了基于余弦价值模式挖掘的推荐算法,将算法在模拟数据集上进行了大量的实验研究。最后将基于余弦价值模式挖掘的推荐算法应用于真实的微博数据集上进行现实应用分析。本文首先分析讨论了传统的关联规则挖掘体系—“支持度—置信度”体系的不足,讨论了衡量关联模式的评价指标,在FP-growth算法的基础上,提出了广义兴趣度指标的“剪枝式价值模式挖掘算法”。这种方法不仅能够消除交叉支持模式,还可以得到稀有的价值模式。其次,本文分析讨论了推荐系统的分类、基于关联规则的推荐算法应用研究,对推荐效果的评价指标进行了分析。考虑到价值模式挖掘算法的优势和挖掘到的价值模式的优点,本文选取广义兴趣度指标中的余弦度量,建立了基于余弦价值模式挖掘的推荐算法,并将算法在模拟数据集上进行了大量的实验研究,从数据预处理阶段的交叉验证到最终评价的多指标考量,本文进行了大量的分析实验。最后,本文将基于余弦价值模式挖掘的推荐算法应用于新浪微博数据集进行现实分析研究。