当前位置:问答库>论文摘要

题目:领域本体的自动化构建技术研究

关键词:本体;领域本体;自动化构建;术语抽取;上下位关系抽取

  摘要


       当今互联网迅速发展,互联网上的信息快速增长,人们从互联网上获取知识变得越发困难。虽然通用搜索引擎和垂直搜索引擎先后出现,暂时的缓解了这一问题,但随着信息继续不断地迅猛增长,传统的搜索引擎也将变得无能为力。“本体”作为一种能在语义层对知识进行描述的概念模型,有望缓解目前知识共享的困境。近年来,知识库、本体的出现标志着互联网正进入了一个“语义时代”。领域本体是对某领域特有的概念以及这些概念之间关系的描述,有非常明显的领域性。相对于通用本体,领域本体更小,构建更加方便。同时,领域本体在知识表示上更加精确,能够为相关应用提供更好的支持。在本体研究的初期,本体主要是靠领域专家通过手动的方式构建,这种方式周期长、效率低,同时对本体的更新维护较为困难。而且由于领域本体的多样化,手工构建领域本体还面临着可移植性差的问题。因此,研究出一套领域本体的自动构建方法具有重要意义。

       为此,本文对于本体构建的相关理论、领域本体的相关概念以及自动化构建的相关技术进行了深入研究,将术语抽取和术语上下位关系抽取这两个领域本体自动化构建的关键技术作为本文的重点研究内容。本文的主要研究工作包括以下两个方面:

       第一,术语自动抽取技术的研究。提出了一种多种方法结合的术语自动抽取方法。首先,根据领域语料中术语的特点,制定较为宽松的语法规则。然后,采用C-value的计算公式计算候选术语的C-value值,选取合适的阈值进行过滤。最后,为过滤完的候选术语建立特征向量,使用决策树的方法对其进行分类,将候选术语分为术语和非术语。实验结果表明:本文提出的术语自动抽取方法较C-value方法有明显提升。

       第二,术语上下位关系自动抽取的研究。在研究了上下位关系中常用方法的基础上提出了一个规则和SVM相结合的上下位关系自动抽取方法。该方法首先利用规则发现一些可信度较高的上下位关系。然后对其他术语对构建相应的特征向量,并使用SVM分类的方法对术语对之间是否存在上下位关系进行判别。实验结果表明:本文提出上下位关系抽取方法较为通用且实现简单,召回率和F2值均高于基于规则和统计相结合的方法。然后对非下位术语进行凝聚层次聚类,结合抽取出的术语上下位关系构建出本体的层次结构。

       最后,基于上述研究成果,设计并实现了一个领域本体的自动化构建系统,并以计算机领域为例生成了相应的领域本体。为便于本体的应用,提出了基于领域本体的词语相似度计算方法,并实现了相关接口。