● 摘要
互联网的快速发展带动了电子商务的发展,越来越多的人通过电子商务网站购物满足自身需求。由于物流和供应链的快速发展,电子商务企业可以提供越来越多的商品。基于此,推荐系统逐步兴起,其根据具体的应用平台及推荐技术,按照用户的偏好等将某商品推荐给相应的用户,为用户节约时间成本的同时更好地满足用户需求。为促进购物环境信息更加透明化,人们可以自由地在网络中发表观点交流意见。然而,由于利益驱动,商家可能会利用虚假信息提升自己或攻击竞争对手,这种行为利用推荐系统的运行机制使得推荐系统产生了不符合用户需求的推荐。因此可能损害了消费者的利益,并影响了电子商务的健康发展。上述推荐系统存在的安全问题即托攻击。
本文主要围绕托攻击领域展开研究。首先通过多组实验对比分析已有的三大类数据挖掘算法识别各种托攻击模型的效果。通过实验结果,结合算法理论及数据自身结构特点,分析算法识别各种托攻击者的优劣。然后,本文将效果相对较好的半监督学习算法HySAD作为进一步研究的对象。通过构建新的特征指标及引入VNS机制改进HySAD算法,并通过多组实验再次验证HySAD算法的效果。最后,本文将改进后的半监督学习算法HySAD在亚马逊真实数据集上进行应用研究。
本文首次通过多组实验系统地对比了PCASelectUser、C4.5和HySAD算法针对不同类型的托攻击者的识别效果。根据实验结果,我们发现PCASelectUser算法仅适用于托攻击者填充比例较小且不存在混淆攻击策略产生托攻击者的情形。而HySAD算法仅仅不适用于托攻击者填充比例较小的情形。且HySAD算法作为半监督学习算法,在无法获得足够用户标签时,识别效果优于C4.5算法。此外,我们首次对效果相对较好的半监督学习算法HySAD进行了改进,通过构建四个新的特征指标更好地刻画了托攻击者与真实用户的区别。然后,在算法迭代过程中引入VNS机制。实验证明,在托攻击者填充比例较低的时候,HySAD算法的识别效果获得了较大程度地提高。最后,我们通过真实环境下的应用研究,从托攻击者的文本特征及对推荐系统的影响两个方面,再次验证了HySAD算法的有效性。