● 摘要
文本聚类作为文本挖掘的主要技术之一,已经成为对文本信息进行有效地组织、摘要和导航的重要手段。文本聚类的过程包括文本表示、文本预处理、特征选择、聚类分析和评价几个步骤,因此影响文本聚类的因素很多。其中特征选择作为聚类分析的前一环节,对聚类结果的质量具有重要意义。本文选题于船舶事故报告管理的文本聚类问题,主要工作如下:(1)针对传统文本聚类特征选择仅仅基于特征项权重进行计算,不能从语义的层面对文本数据进行挖掘的不足,提出将语义相似度的计算应用在文本聚类特征选择过程。通过对文档集合平均差异度的定义,提出了基于语义相似度与遗传算法的中文文本聚类特征选择方法,并且实验结果证明其能够有效提升聚类准确性。(2)由于文本特征向量具有高维度的特点,文档相似度的计算量十分巨大,并且产生大量的中间结果,为了降低计算复杂度,本文提出了基于《知网》的同义词合并算法。该合并算法能够有效减少特征项数量,可以作为文本预处理步骤之一。(3)在应用研究方面,本论文提出船舶事故报告管理系统原型架构以及完整的文本聚类方案,并完成了对船舶事故报告聚类分析工作。
相关内容
相关标签