当前位置:问答库>论文摘要

题目:基于语义信息的文本分类系统的研究与实现

关键词:文本分类,知网,义原,语义向量,语义相似度,语义简单向量距离算法,语义KNN算法

  摘要

文本分类在很多文本挖掘和信息检索系统中发挥着重要的作用,可以改善检索性能、提供导航、浏览机制及发现相似文本等。文本分类的研究已成为数据挖掘中一个非常重要的课题。针对传统的基于关键词的向量空间模型考虑特征项词语之间的同义、多义、上下位等语义关系的不足,本文运用《知网》知识库,对传统的关键词特征向量进行语义扩展,对词语进行语义排歧,提取词语概念的第一基本义原,形成义原向量,并与关键词向量合并,得到富含更多语义信息的语义向量。本文运用已有的基于《知网》和《同义词词林》的词语相似度计算方法,设计了一种结合两大知识库的词语语义相似度计算方法,使得词语之间的语义相似度更为合理。并在此基础之上结合语义权重,提出了一种文本之间的语义相似度计算方法。文本间的语义相似度计算方法,为文本分类打下了基础。最后,本文对传统的文本分类算法(简单向量距离、K临近法)进行了改进,提出了相应的语义简单向量距离分类算法和语义KNN分类算法。以语义向量取代传统的关键词向量;在相似度计算上,使用了结合余弦相似度和语义相似度的方法,并分别在两个语料库上进行了实验。实验结果证明:在Sogou语料上,使用两种语义分类算法比传统算法分类准确率分别提高了约1.3%和2.7%;而在Tancorp语料上,使用两种语义分类算法比传统算法分类准确率分别提高了约3.6%和1.6%。本文结合以上研究,设计实现了基于语义信息的文本分类系统,实现文本(包括网页)的分类,给国家科技基础平台搜索引擎所返回信息提供了分类功能,方便用户使用;也为面向科技领域的爬虫系统提供了更好的过滤功能,为开发和维护工作人员整理已有的网页数据提供了很大的帮助。