当前位置:问答库>论文摘要

题目:空间降维条件下的文本自动分类算法研究

关键词:文本分类;降维;特征选择;均值漂移

  摘要

互联网中信息的爆炸式增长为信息的管理和使用带来了巨大的挑战。为了揭示隐藏在数据之后具有潜在价值的信息或结构,近年来文本分析和文本挖掘技术取得了较快的发展和广泛的应用。通过对文本内容的研究,可以发现文本数据中存在的各种关系和规则,并能够根据现有的数据预测未来的发展趋势。文本自动分类技术是文本挖掘领域最重要的工具之一。文本自动分类是人工智能技术和信息检索技术相结合的研究内容,是进行基于内容的自动信息管理的核心技术。文本自动分类的目的就是对文本集进行合理的处理和组织,使得这些文本能够按照类别区分开来。近年来,文本自动分类技术已经在信息过滤、搜索引擎、文本数据库等领域得到了广泛的应用。本文对文本自动分类领域的关键技术及国内外相关研究进行了较为深入的剖析;针对特征空间降维的相关技术进行了分析和比较,并选择了一种基于信息增益理论的特征选择方法作为研究重点;同时,本文还对文本特征向量表示等关键技术进行了研究和改进,提出了新的设计方案。基于以上研究内容,本文首先提出了一个基于特征空间降维的文本自动分类算法框架DRFTC(Dimension Reduction Framework for Text Categorization)。该框架通过有效的降维,使传统的低维空间分类算法适用于高维空间,从而实现其在文本自动分类领域的应用。然后,本文设计并实现了一种基于均值漂移的文本自动分类算法MSBC(Mean Shift Based Classification),该算法基于本文所提出的DRFTC框架,并对传统的均值漂移算法进行了改进。算法MSBC在保证自动分类准确性的同时,还继承了基于质心分类时间复杂度低的优点。为了验证框架和算法的有效性,本文选择了数据挖掘领域研究中两个标准的数据集分别进行了实验。实验结果表明,本文提出的DRFTC框架能够使传统的低维空间分类算法适用于高维条件下的文本分类,并取得了较好的分类效果;同时,本文提出的基于均值漂移的文本自动分类算法与KNN算法和Rocchio算法相比具有更优的分类效果和更低的时间复杂度,是一个高效快速的文本自动分类算法。