● 摘要
?
专利文献作为世界上最大的技术信息源,囊括了世界上90%-95%的科学技术信息。如何快速高效地获取、管理及利用专利中的数据信息,目前已成为专利分析领域的焦点问题。伴随着专利文献数目的激增,传统的人工分类方式已不能满足用户对于分类效率和准确率的要求;同时,当分类系统其训练样本集规模较小时,如何选取恰当的分类算法作为分类器模型,也是该分类系统设计实现的重点内容;综上,本文将基于朴素贝叶斯算法的专利分类系统的设计与实现作为本课题的研究对象。
课题的核心目标在于开发一个专利分类系统,依据客户要求将专利快速归为已知类别表;其中本分类系统最为重要的就是分类器模型中分类算法的选取,针对小规模的训练文本集,为保证分类的准确度,分类器模型选用基于最小错误率的朴素贝叶斯算法;其次,高维度特征空间会让系统运行速度大幅度减缓,进而影响最终分类结果的精确程度,所以在特征处理方面,系统采用特征项类间与类内的离散度权重信息对特征提取及特征权重计算的方式进行改进优化,实现特征空间降维,优化系统分类结果;最后,系统的设计采用了SpringMVC与Hibernate技术,实现了系统的快速搭建和灵活调整,保证了平台的稳定性和易维护性。
目前课题中专利自动分类系统已具备较完整的功能。分类器训练阶段,系统结合企业提供的类别信息表,同时通过人工分类及后期筛选得到的21,000件美国专利局相关专利文本作为训练样本集,得出专利分类系统模型。在对分类器进行测试时,以相同来源专利2000件作为测试样本集;最终系统测试中,分类结果为查全率(Recall)为76.236%,查准率(Precision)为68.081%,满足分类系统的查全率大于75%,查准率大于65%的性能需求。