● 摘要
随着Internet的迅猛发展和日益普及,电子文本信息迅速膨胀。有效地组织和管理这些信息,并快速而准确地从中找到所需要的信息是当前信息科学和技术领域面临的一大挑战。作为组织和处理大量文本数据的关键技术之一,文本分类可以解决信息杂乱的问题,以准确地定位所需的信息和分流信息。作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,文本分类技术有着广泛的应用前景。 在文本分类领域,通常将向量空间模型视为经典的文档表示模型。在这个模型中,文档被表示成特征空间中的向量,从而将分类问题转变为向量比较的数学问题。向量空间模型中,影响分类结果的因素主要有两个方面,即特征选择和分类算法。所谓特征选择,即降维,目的是去掉对分类没有贡献或者带来干扰分类的词,以提高分类准确性和降低计算复杂度。分类算法是对待分类文档进行归类的方法。本文主要研究这两个关键因素以提高分类系统的性能。 本论文首先引入了文本分类的概念和向量空间模型,对基于向量空间模型的文本分类方法的理论知识和基本技术进行概述。在此基础上,分析和总结现有的文档频率特征选择算法、互信息特征选择算法、信息增益和CHI特征选择算法的特点与不足,提出改进方案,得到了Log似然比特征选择算法(Log Like-hood Ratio,LLR);分析了被广泛使用的最小距离分类法、朴素贝叶斯分类法、K最近邻居分类法和支持向量机分类法的特点与不足,针对K最近邻居分类方法中根据K个文档判断类别的方法,提出了改进方案,引入了带有去噪和权重信息的K最近邻居分类法(Weighted K Nearest Neighbor, WKNN)。最后,对Log似然比特征选择算法和WKNN分类方法进行对比验证,并将研究成果应用于专利文本自动分类系统。
相关内容
相关标签