● 摘要
数据仓库可以集成多个数据源数据,越来越广泛的用作决策支持系统的基础。为给数据仓库提供高质量的数据,在数据装载到数据仓库之前必须经过数据的抽取-转换-加载(Extraction-Transformation-loading, ETL)等一系列的预处理工作。如果针对每个数据源开发相应的ETL程序,会造成系统维护困难, ETL过程可扩展性差、适应性差。针对这一问题,本文对ETL过程进行分析,以元数据的方式描述ETL过程,研究并实现了元数据驱动的ETL系统,采用统一的ETL任务设计和运行机制,提供了便捷的ETL过程定义和管理功能。论文首先介绍了数据抽取-转换-加载(Extraction-Transformation-loading, ETL)相关技术与理论,为系统的设计和实现奠定了基础。然后设计了系统的总体框架,设计了本系统的ETL元数据内容及存储方式。接下来分析了ETL系统工作流程并详细论述了系统各模块的实现过程,最后给出了系统运行实例并对论文工作做了总结与展望。通过本论文的研究,主要取得了以下成果:1. 分析了ETL系统元数据内容,实现了相应管理功能;2. 实现了基于上述元数据驱动的ETL任务运行与管理功能;3. 实现了部分抽取、转换和加载功能,并实现相应的管理机制。