当前位置:问答库>论文摘要

题目:基于半监督学习的搜索引擎作弊检测模型研究

关键词:搜索引擎作弊,属性选择,标记取样,作弊检测,三协同训练算法

  摘要



 

搜索引擎是获取互联网信息的主要入口,它极大地提高了网民查找信息的效率。用户在使用搜索引擎时通常只会浏览前几条结果,于是在利益的驱使下产生了搜索引擎作弊。由于作弊的进化性,许多现有的作弊检测方法不能很好地工作。当一种新的作弊技术出现,作弊检测系统就需要修改算法甚至推倒重构以进行抵抗,这给反作弊带来了很高的成本和代价。基于机器学习的作弊检测算法具有自主学习能力,它可以通过对新样本的学习更新作弊检测系统,从而使作弊检测系统能够识别新的作弊行为。现有的基于机器学习的作弊检测大多采用监督学习算法。监督学习需要大量的标记样本供分类器训练,而标记样本的获取需要这个领域专家的参与以及大量的人工成本,这使基于机器学习的作弊检测的成本很高。另外,对于垃圾网页检测这个二元分类学习问题,互联网上存在大量的未标记样本。如何充分有效地利用这些未标记网页样本是基于机器学习的作弊检测所面临的一个难题。

半监督学习是监督学习和无监督学习相结合的一种学习方法。它基于少量标记样本和大量未标记样本构建学习模型,这对减少学习成本和提高学习器性能具有实际的意义。

机器学习需要将学习样本表示为属性向量,所采用的属性集在一定程度上决定了学习算法的性能。为了剔除属性集中的不相关属性和冗余属性,本文基于信息增益率从网页属性集中挑选了97个内容属性和97个链接属性,并将挑选的属性集拆分为内容属性集和链接属性集两个特征视图。

对于标记取样问题,为了提高样本的标记有效率,避免标记集出现局部聚集,使挑选的标记集能够更好地覆盖样本分布,本文基于聚类假设和流形假设提出了距离度量可选择的排斥近邻的标记取样算法。

为降低学习算法对标记样本的依赖,本文在协同训练算法的理论基础上设计实现了三协同训练算法。并基于距离度量可选择的排斥近邻的标记取样算法和三协同训练算法构建了一个作弊检测模型。

最后,基于本文的研究工作设计并实现了一个半监督作弊检测原型系统。系统提供标记取样和学习训练两大功能。用户使用系统可以进行标记取样、学习训练,以及构建学习模型和应用学习模型。