当前位置:问答库>论文摘要

题目:基于Hadoop的实体识别方法的研究与实现

关键词:实体识别,记录匹配,概率图模型,条件随机场,分布式

  摘要



 

实体识别(Entity Resolution)是对来自单源或多源的数据集,判断并识别其中表征相同真实世界对象的数据记录的过程,也常称为数据记录匹配(Record Matching)。该领域研究已发展四十多年,源于银行客户信息重复过滤。目前解决该问题的传统方法一般是通过比较数据记录之间的值相似性判断是否为同一真实对象,比如近邻排序算法,基于机器学习的方法。然而孤立的数据对比较的方法忽略了数据集的整体信息,因此利用数据之间的关联信息整体地判别数据对是否为重复的方法引起广泛关注。其中条件随机场模型(Conditional Random Field, CRF)可以通过无向图表示不同变量间的关系,从而使数据集的有用信息及时传递出去,以实现一种整体的数据记录匹配方法,改进了实体识别的准确率。另一方面随着当前数据规模的急剧增长,对数据的分析处理提出了更高效更及时的需求。并行地分布式计算方法则是高效处理数据的有效对策。因此为了进一步改进数据实体别方法的准确率和效率,结合当前流行的Hadoop开源平台和条件随机场模型,本文提出并实现了基于Hadoop的条件随机场模型的数据实体识别方法。

本文首先阐述数据实体识别研究的现实意义以及当前国内外研究现状,并分析比较了传统方法的优点和不足,然后对实体识别研究的关键技术(分组技术、字符串相似度计算方法、记录匹配方法)作综述介绍和分析。接下来则重点介绍条件随机场模型及基于条件随机场模型的实体识别算法,和Hadoop技术以及基于Hadoop和条件随机场模型的分布式实体识别方法,并通过一系列实验验证该方法的高准确率和高效率。考虑研究的的完整性,最后本文对文本数据上的实体对象的提取和匹配进行了初步研究。

本论文的主要研究点和创新点有如下内容:(1) 设计了一种新的结构化数据实体识别的条件随机场模型,该模型是对Singla和Domingos提出的CRF模型的改进,并增加了更多的特征函数,和应用环路信念传播算法LBP(Loop Belief Propogation)学习模型参数,从而达到更高准确率; (2) 设计并实现了基于Hadoop平台的条件随机场模型的分布式数据实体识别方法,实现一次学习所得的模型,并行地用于多组数据重复识别判断的任务,从而大大提高了效率;(3)提出了基于语法规则和结合Lucene的快速检索技术以及文本相似度量的文本实体提取和关联的方法。