● 摘要
目前的网络资源缺乏统一的描述,用户越来越难从海量的数据中查找到自己需要的资源。文本自动分类是信息处理领域的一个研究热点,它是指在给定的分类体系下,根据文本内容自动确定文本所属类别。文本自动分类技术是文本挖掘的核心,是组织和管理海量信息的有效手段,是几乎所有基于内容的文本管理的研究基础,并被广泛应用于信息处理领域。因此文本自动分类的研究具有广泛的商业前景和现实意义。本文实现了一个基于本体的Web文本分类系统,重点对科技领域网页文本的分类方法进行了研究。主要工作包括建立科技领域本体,网页预处理与采用特征选择算法对特征向量进行降维;基于领域以及本体知识建立扩展向量模型;构建分类器,实现基于本体的文本分类;并验证了该方法的可行性和有效性。通过与传统分类方法的对比实验,结果表明该方法能够取得较好的分类精度,提高了文本分类的性能,使得该系统具有实际应用价值。