● 摘要
针对企业信息化系统中的数据重复、数据缺失和数据不一致等数据质量问题,本文设计并实现了一个数据质量改进软件,该软件具有数据去重、数据补全和数据标准化等功能。
为了解决数据重复问题,本文选用并实现了一种基于频率的数据匹配方法,该方法将相同相似数据分组,并根据用户自定义的规则将分组数据合并。为了解决数据缺失问题,可根据数据特征分别采用系统内部或系统外部数据补全的策略。系统内部数据补全策略借助数据匹配方法,将企业内部其它应用系统中表示同一实体的数据与当前数据匹配并分组,在同一组内用其它系统中的完整数据替换前缺失数据。外部数据补全的策略则借助外部参考数据补全缺失数据。为了解决数据错误和数据不一致问题,文中提出了一种基于规则解析的方法对数据进行修正和标准化处理。
本文首先对数据质量改进软件的项目背景、国内外研究现状和研究内容进行简要介绍。接着对企业信息化系统中数据质量改进的需求进行分析,然后基于此需求设计实现了基于ETL(Extract Transformation Loading)的数据质量改进软件。文章最后对软件的功能测试、数据去重示例和部署方案做了介绍。