当前位置:问答库>论文摘要

题目:人口决策系统的数据抽取和清洗工具的设计与实现

关键词:人口决策支持数据仓库;数据抽取;数据清洗;设计模式

  摘要

为了提升我国人口数据信息化管理水平,提高人口政策制定部门对未来人口相关信息的预测能力,需要建立对全国人口数据进行管理的数据仓库系统。在这种情况下,国家人口计生委提出:收集、整合和利用现存的人口及相关经济社会宏观信息资源,用5年左右的时间,建立信息共享、知识挖掘、决策支持、协调高效、安全稳定、保障有力的人口宏观管理与决策信息系统(PADIS)。本文涉及的工作是PADIS系统中数据仓库系统建设部分的数据抽取和清洗工具的设计与实现。该工具为数据仓库系统的搭建负责不同数据源数据的抽取,及数据规范性检查,为建立合理、正确的数据仓库系统提供基础数据的质量保障。本文首先调研了国内外数据抽取和清洗问题的研究现状,了解数据抽取和清洗活动中存在的主要问题,及解决这些问题的相关技术和方法。然后分析本项目对工具的需求,并根据需求总体设计工具的解决方案。接着针对本项目要求的工具设计原则,结合软件设计模式,完成了该方案中数据抽取和清洗工具的设计与实现。最后,在完成工具开发工作的基础上,通过一个完整的应用实例,使用实际人口数据对工具功能进行验证。通过测试多组人口数据,验证工具抽取和清洗数据的正确性;通过变更需求,验证源数据模型、数据抽取功能、数据清洗构件的可扩展性;并验证了工具的性能。数据测试和实例分析的结果表明,本文所涉及的数据抽取和清洗工具能够较好地满足项目要求。