当前位置:问答库>论文摘要

题目:基于特征集的文本聚类/分类系统的研究与实现

关键词:VSM;文本聚类;文本分类;特征集

  摘要

随着信息科学技术的飞速发展,人们在生产生活中积累了大量的文本数据,如何从中提取有用的信息以支持和改善各种决策是文本挖掘的主要研究目标。作为数据挖掘的一个重要分支,文本聚类/分类的主要目的是揭示文本间本质的“抱团”性质。现有的文本聚类/分类算法大都基于VSM模型,将词表示成词空间互相独立的维,实际上割裂了词之间内在的关联信息,并且实际应用中单词数量庞大,而很多词对类别几乎没有贡献,于是将不可避免的造成计算资源的浪费。本文对现有的各种文本聚类/分类算法和相关理论进行深入的分析,在VSM模型的基础上提出了基于特征集的文本聚类/分类方法。特征集隐含了词内在的关联信息,同一特征集内的词互相关联,而不同特征集间的词互相独立。特征集是类别概念的反映,可以通过比较文档与特征集的相似度来判别文档的类别归属。特征集思想源于对语料文本中存在的大量词共现现象的分析,本文首先依据词共现理论,定义了词与词的关联度,并据此采取逐步最优的分步策略对词进行聚类得到特征集,然后定义了关于特征集的权重策略和类别判别函数,从而给出了完整的基于特征集的文本聚类/分类方案。在实现部分,本文设计并实现了一个基于特征集的文本聚类/分类原型系统,同时实现了传统文本聚类、分类算法;在验证部分,本文采用了两套语料,以封闭和开放的方式分别对文本聚类、分类进行测试,并与传统的文本聚类、分类在性能上进行了比较。基于特征集的文本聚类/分类无需事先给定训练集,减少了人为的干预因素,因而使结果更加客观、公正。实验部分的结果证明了基于特征集的聚类/分类可行性,并且封闭语料上的聚类效果显示该方法较传统的文本聚类具有一定的优势。