● 摘要
随着当今科学技术的飞速发展,各类信息层出不穷,甚至远远超出了人类阅读的能力。信息抽取就是帮助人们理解使用海量数据的一种技术,而实体关系抽取是信息抽取中的重要部分,其任务是从文本中抽取出两个或者多个实体之间预先定义好的语义关系。远程监督式实体关系抽取是关系抽取领域的研究热点之一。远程监督式实体关系抽取不需要人工标注的数据,它使用知识库提供的知识从海量文本中启发式地标注数据,之后再从这些数据中抽取特征、训练分类器。本文着重研究了远程监督式关系抽取方法,主要优化了其中数据标注和特征使用两方面的内容,设计并实现了一个基于远程监督的面向海量数据的关系抽取系统。
在标注数据时,远程监督式方法使用了一个命名实体解析器来从海量文本中找出命名实体,但命名实体解析器在实体标注上仍存在不足,如可以标注的类型数量有限,不适用于知识库中海量的命名实体类型。本文提出了一种基于字符串匹配和异常处理的数据标注方法,一定程度上解决了远程监督式方法依赖与命名实体解析器的局限。实验表明,该方法在保证标注准确率的同时,大幅提升了召回率。
在远程监督式关系抽取方法训练分类器时,有些特征在训练数据中出现次数太少甚至没有出现,导致这些特征的训练效果较差。本文把特征的信息分为统计信息和固有信息,使用特征的统计信息来训练分类器,使用特征的固有信息来计算特征之间的相似度,从而提升在训练数据中出现次数很少甚至没有出现的特征的分类可靠程度。实验表明,该方法提升了这些特征的分类可靠程度,而且也提升了远程监督式关系抽取方法的性能。
最后,本文基于远程监督的思想,结合在数据标注和特征使用两方面的改进,设计并实现了一个面向海量数据的关系抽取系统。
相关内容
相关标签