● 摘要
随着信息资源的日益丰富,Internet已成为一个巨大的信息仓库。传统的信息检索采用关键字匹配方式,这种方式不能有效反映和表述关键字的语义信息,导致检索的效率较低。关联检索(Association Retrieval)是一种能够提高检索效率的有效方法,目前已成为信息检索领域的研究热点。在科技领域已积累了大量的科技资源元数据信息,亟待进行有效整合和共享。本文设计了一种应用于科技领域的元数据信息关联检索方法,可以有效提高科技信息检索的效率。本文主要研究成果包括:1. 资源的统一语义描述:本文实现了一种基于元数据的资源信息语义描述策略。该策略的优点为无需特定领域背景知识,通过对资源元数据信息进行半自动化提取,将提取后的概念和属性,利用本体(Ontology)描述语言OWL(Web Ontology Language)建立关系连通网络,实现资源的统一语义描述。2. 查询扩展与关联关系的提取:借鉴传统查询扩展技术,本文研究并实现了一种基于本体的关联查询扩展和关联关系提取方法。该方法通过提取用户查询的语义信息,结合领域特点进行领域内和跨领域的查询扩展,并基于Jena推理模型,挖掘概念间的连通关系,提取与用户需求相关联的概念。3. 资源关联检索:基于传统的语义相似度方法,本文研究并实现了一种基于本体的资源关联检索方法,该方法能够在检索的过程中通过概念间的相似度、属性间的相似度、词语向量间的语义相似度来综合计算查询请求与文档间的关联度。该方法在计算过程中引入了知网(Hownet)词语向量间的语义相似度计算,能够在本体不完备的情况下改进语义相似度的计算效果。4. 本文将以上的方法和相关技术,引入到了“国家科技基础条件平台门户应用系统”当中,设计实现了一套基于元数据的资源关联检索子系统,该系统能够处理领域内和跨领域的资源关联检索需求,为用户提供了一种语义级别的关联检索服务。在论文最后,本文进行了总结并对未来的工作提出了一些展望,并指出在本体的自动生成和结果排序改善两个方面需进一步开展工作。
相关内容
相关标签