● 摘要
核方法因其优异的性能已成为机器学习领域的一个研究热点。由于在计算性和泛化性方面不依赖于特征维数,并能用于分析数据间的非线性关系,因此核方法非常适合于文本模式分析任务。核方法的性能在很大程度上取决于所使用的核函数,因此核函数的构造与学习是核方法的核心问题。本文围绕文本核的构造与局部化的多核学习展开研究。
首先,作者提出了一种新的文本核用于文本分类,命名为词组合核。该核是针对现有文本核的不足与缺陷而提出的,其研究目标是能够满足实用化的需求且分类性能优于经典的词核。词组合核使用作者提出的词组合特征。一个词组合是由同一个句子中的不同单词组成的一个集合,该核的特征空间由特定长度的所有词组合生成。词组合核的设计考虑了自然语言的特点,与词核及词序列核相比具有一定的优点。作者给出了词组合核的理论分析与形式化定义,并提出了一个高效的实现算法。通过在文本数据集Reuters-21578与20 Newsgroups上的分类实验,作者确定了词组合核的最优特征长度,证实了该核的分类性能优于词核与词序列核并且计算效率能够满足实用化的需求。
其次,针对中文文本的特点,作者提出了中文加权字符串核。中文文本的分类任务通常以词作为基本特征,需要先进行分词处理。为了简化计算,提高效率,中文加权字符串核的计算以字为基础,使用汉字串特征,能够直接用于中文文本分类而无需分词处理。一个汉字串是由同一个句子中相邻的汉字组成的一个连续序列。通过引入结合强度的概念,中文加权字符串核对可能构成词条的汉字串赋予较大的权重,反之则赋予较小的权重甚至零权重,从而强化构成词条的汉字串的作用,获得相当于软性分词的效果。结合强度定义在作者提出的边界强度和改进的互信息的基础上,综合度量一个汉字串内部联系的紧密程度与外部的独立性。在中文语料库TanCorpV1.0上的分类实验表明中文加权字符串核能够达到分词条件下词核的性能水平并具有更高的计算效率。
最后,作者提出了一种局部化的多核学习方法用于文本聚类,命名为局部自适应多核聚类。该方法是针对数据分布在输入空间的不同区域具有显著变化的聚类问题而提出的。不同于常规的多核学习方法,该方法为每个聚类关联一个不同的核函数,然后分别对每个聚类的核函数进行优化,因而能够更好的适应数据分布在聚类间的变化。在该方法中,给每个聚类分配一个权重向量用于特征选择,然后将每个权重向量与高斯核结合起来形成一个特定的核函数用于对应的聚类。作者提出了一种局部化的核目标对齐技术与核k-means聚类相结合来迭代的优化每个聚类的核函数,并设计了一种简化算法以提高计算效率。在Reuters-21578、20 Newsgroups以及TanCorpV1.0文本数据集上的聚类实验表明该方法具有良好的聚类性能。