● 摘要
随着网络信息的迅猛发展,信息分类的重要性越来越明显。文本分类就是信息分类的一个重要的研究方向,它是指在给定分类体系的前提下,对各种文本进行自动分类的过程。向量空间模型是处理大型文本集被普遍采用的一种文本表示的方法。本文首先对向量空间模型进行分析和研究,包括:向量空间模型的基本概念、特征项的选择、特征项的抽取和特征项权重的计算。然后,本文介绍了几种常用的基于向量空间模型文本分类算法,并描述了其运行步骤。接着本文针对一般文本分类系统普适性较差弱点,提出了一新型的特征项抽取方法。使用Adaboost分类方法,设计兼顾语义考量的弱分类器,并且对常用的Adaboost分类方法进行了改进。在系统关键参数设定时,摒弃了以往依靠经验的方法,而是使用遗传算法对各种关键的参数进行优化,来获得合理的参数值。这样不但提高了分类器的性能,而且也提高了分类器的普适性。实验结果证明在没有任何先验知识的情况下,整个系统面对动态的变化的环境,依然表现良好和稳定。这就证明了系统的普适性。本文提出了一种新的启发式的向量空间模型的研究方向,今后可以在此基础上,继续进行基于向量空间模型的分类方法的研究。
相关内容
相关标签