当前位置:问答库>论文摘要

题目:结构化数据记录去重算法的研究与优化

关键词:数据清洗;相似重复记录;质量评估;余弦相似度;索引

  摘要


相似重复记录检测和清除是数据清洗领域里非常重要的一个方面,它的目的是清洗冗余数据,提高数据质量。本文分别对重复记录检测算法、清洗重复记录算法和数据清洗的质量评估进行了研究,总结分析了重复记录检测算法和清洗重复记录算法存在的优缺点,并提出了改进方案。最后本文基于文中提出的改进算法设计了验证系统,对改进效果进行了验证。

对于重复记录检测算法,本文重点研究了余弦相似度算法及其三种改进算法,并讨论了各改进算法的主要贡献。在三次改进中,一次改进引入文本覆盖度,对包含相同特征项的文本计算出的相似度更准确;另一次改进提出基于 权重方案计算两个文本的相似度;还有一次改进提出基于Q-Gram进行特征项的切分,显著降低了拼写错误对文本相似度计算造成的影响。本文在上述改进的基础上,提出局部词频和全局词频的概念,然后据此计算局部权重和全局权重,并最终计算出综合权重。

对于清洗重复记录算法,主要研究了两种基于索引的算法,分析了其优缺点。考虑到基于索引的两个算法其实现都较复杂,本文基于Lucene重新实现了清洗重复记录的算法。本文详细讨论了Lucene建立索引和查询索引过程中所用到的理论基础,然后具体实现了索引的创建和搜索。

实验结果表明本文的改进是有效果的,在覆盖率基本一致的条件下,改进算法比原算法有更高的准确率。从运行时间上看,改进算法在运行效率上的优势不明显;但是考虑到在检测重复记录算法进行相似度计算时增加了对局部权重的计算,单从清洗重复记录算法的执行效率上看,改进算法仍然优于改进前算法。

相关内容

相关标签