● 摘要
随着现代企业办公电子化的发展,电子文本的数量呈现指数速度增长,对海量文本进行人工处理已经成为一个不可能完成的任务。利用文本挖掘技术自动化地处理无结构的文本,获取文本中隐藏的知识,并使用这些知识更好地组织信息已经成为知识发现领域研究的热点。文本分类作为文本挖掘中的主要研究内容,在信息的发现和组织过程中起着重要作用。本文基于Libsvm分类器,通过对常见特征选择算法的比较分析,以及对特征加权算法的研究与改进,开发出一款文本分类系统。系统在公开数据集20newsgroup上进行测试,达到93%的准确率。本文的主要工作包括:
1)在充分调研的基础上,对常见的特征选择算法进行了代码实现,比较了卡方检验、信息增益、互信息、文本证据权等特征选择算法的选择效果,并最终将卡方检验作为系统的默认解决方案。此外,基于对特征加权算法的比较分析,将特征加权算法视为全局因子、局部因子、额外因子的三因子乘积,从而简化了系统的流程。将TF-IDB-DBV算法的方根抑制,改进为对数抑制,在保证效果的前提下减少了参数,简化了流程。
2)进行文本分类系统的需求分析,界定出整个系统的用户以及具体使用场景,进而划定每个模块的功能边界,定义模块对外部的接口和所应当完成的功能。
3)结合上述工作,进行文本分类系统的实现,整个系统重视通用性与易用性的平衡,满足普通用户自动化处理的需要,以及高级用户定制化地研究问题的需要。
分类的结果表明,本系统所采用的卡方检验特征选择算法和TF-IDF-DBV特征加权算法相结合的方法,在开源的数据集以及水木启航科技有限公司内的特定数据集上,均取得90%以上的准确率。系统面向实际应用问题,模块设计合理,详略得当,具有一定的开发借鉴意义。