● 摘要
随着信息时代的到来,信息每天都在以惊人的速度增长,特别是Web网页、文本等半结构化数据。但是,大规模文本数据由于缺乏组织与分类,导致用户无法有效地管理与利用这些潜在的有用数据。基于机器学习的文本分类算法能够帮助用户解决上述的问题,并且文本分类技术在自然语言处理与理解、信息组织与管理、内容信息过滤等领域已经有着广泛的应用。同时,这些领域对文本分类技术的不断需求,也极大地推动了文本分类技术的深入研究,使文本分类技术成为目前机器学习与数据挖掘领域的热点研究课题。本文从文本分类的基本问题入手,分别在文本特征选择、项权重计算和文本分类算法上取得了技术突破,并设计实现了相应的算法。新的算法在大规模真实文本语料集上取得优越的性能。最后本文集成四个研究成果,设计实现了大规模文本自动分类系统,并在非结构化数据管理系统中进行集成应用。本文取得的主要研究成果及创新点如下: item 现有的特征选择方法几乎都是基于文档频率的,即只考虑关键词是否在文档中出现过,而忽略了关键词出现频率对于文档主题的影响。本文利用词频在不同类别的分布差异提出一种基于词频与T检验的特征选择方法(T-test)。T-test利用大数定律证明了词频在类别和整个语料中近似服从正态分布,并且T-test在非均衡语料集Reuters与均衡语料集20Newsgroup上的分类效果要优于或相当于已有的五种常用特征选择方法。特别是在分类准确率上,T-test方法要优于其他的方法。 item 文本分类任务中,训练文本实例的类别信息是已知的,而传统的tf-idf项权重计算公式忽略了这一有用信息。通过分析目前已有的权重计算方法存在的问题,本文将逆类别频率(inverse category frequency, icf)引入到项权重计算方法中,并提出tf-icf与icf-based两种有监督的项权重计算方法。新的权重计算公式结合$icf$和$rf$的优点,充分考虑和利用特征项在类别中的分布信息,能够准确评估特征项在文本中的重要程度。引入$icf$的两种权重计算方法在不均衡语料与均衡语料下均可提高文本分类的准确率、召回率及$F_1$值,并优于已有的各种项权重方法。 item 针对分类器的偏差问题,本文证明了通过选择部分合适的训练样本构造的中心向量有可能优于全部的训练样本构造的中心向量。因此,本文利用线性SVMs分类算法在边界实例选择上的优势,采用支持向量作为质心分类算法的输入来构造质心,并利用训练误差来迭代修正初始质心向量。本文提出的IACC\_SV分类算法在8个公开真实文本语料集上的的微平均和宏平均的$F_1$都优于常见的SVMs、$k$NN与改进的质心分类算法。 item 针对IACC\_SV分类模型中支持向量寻找算法时间复杂度高的问题,本文提出一种1-最近最远邻(1-Nearest-and-Furthest Neighbors,1NFN)的边界实例寻找策略。该策略利用文本相似度来寻找球形的边界实例,时间复杂度为$O(N^2)$,低于SVMs的时间复杂度。然后,本文提出一种快速文本分类算法IACC\_1NFN (1NFN-enabled Iteratively-Adjusted Centroid Classifier),该算法在25个公开文本语料集上的性能、效率都要优于最优参数训练的SVMs分类器。