当前位置:问答库>论文摘要

题目:基于聚类核的半监督支持向量机分类方法研究

关键词:半监督学习,支持向量机分类,Bagged聚类核,连通核,层次聚类连通核

  摘要


机器学习是一门研究机器获取新知识和新技能,并识别现有知识的学问。通过学习已有的一些观测数据(样本),建立一种模型或学习器,以便于对未知的数据进行分析和预测。随着互联网和科学技术的迅速飞跃,可以很方便的采集大量无标记样本,相对而言,可利用的有标记样本数目十分有限,机器学习中的半监督学习关注的焦点是如何在有标记样本数目有限的情况下结合无标记样本来增强学习器的性能。
标准的支持向量机(Support Vector Machine, SVM)分类方法通过对已标记样本进行训练,并结合最大间隔原则得到分类超平面,对于样本数据固有的分布情况及所隐含的信息,并没有考虑,因而在一定程度上影响了该方法对具体模式进行识别的能力。为了进一步提高SVM的分类性能,产生了基于聚类核的半监督支持向量机。
基于聚类核的半监督支持向量机在核矩阵的构造过程中,充分利用无标记样本信息,进而提高支持向量机的分类精度。其类型主要包括基于随机游走核和谱聚类核的半监督支持向量机,然而这两种半监督支持向量机方法都需要对标记样本和无标记样本组成的相似度矩阵进行对角化,当无标记样本数目很大时,存储相似度矩阵的空间复杂度和对角化相似度矩阵的时间复杂度都很高。如何更加充分利用无标记样本,增强半监督支持向量机的分类效率值得深入研究。
本文的主要工作包括:
对基于聚类核的半监督支持向量机分类方法的研究现状进行了阐述,并对聚类核的整体框架做了说明,在此基础上提出了两种基于聚类核的半监督支持向量机分类方法:
    (1)基于Bagged聚类核的半监督支持向量机分类算法。其思想是:位于同一聚类中的样本应被划分在同一侧,决策面通过的区域样本分布应该稀少。对由少量标记样本和所有无标记样本组成的样本集合采用k均值聚类算法进行多次聚类,得到一种半监督核(Bagged 聚类核)。该核能够对样本之间的相似度信息进行重新调整,使得位于同一聚类的样本之间的相似度增大,而被聚到不同类中的样本,它们之间的相似度减小。将Bagged聚类核与用于支持向量机的核函数构造中,得到基于Bagged聚类核的半监督支持向量机,实现利用无标记样本以改善支持向量机的分类性能。
   (2)基于层次聚类连通核的半监督支持向量机分类算法。为了更加有效的利用标记样本和无标记样本,增强其对任意分布数据的分类性能,提出基于层次聚类连通核的半监督支持向量机分类方法,该算法采用层次聚类的方法并结合连通核的思想去构造层次聚类连通核,使得位于同一线状分布内的数据或形状不规整区域内的数据变得更致密,将其与支持向量机相结合而得到基于层次聚类连通核的半监督支持向量机。实验表明,该方法在分类精度方面优于支持向量机分类方法和基于Bagged聚类核的半监督支持向量机。