● 摘要
近年来,在高能物理、天文、生物等诸多学科领域,伴随实验装置与方法的不断发展,源源不断地产生着数以TB甚至PB计的海量科学数据。数据处理与分析、挖掘在科学研究中扮演着越来越重要的角色,被认为是科学研究的“第四范式”。由于单一节点的能力限制,基于广域网的海量科学数据协同处理成为必然选择。数据资源管理是进行海量科学数据分析处理的重要前提与有力保障,因此,如何构建广域网环境下面向科学计算的数据资源管理系统并对其进行优化便成为重要的研究课题。近年来,学术界和产业界提出并部署了集群计算、网格计算、数据中心计算等一系列通用的分布式处理模型与系统。然而,由于这些模型与系统的通用性、开放性设计要求,并未针对广域网环境下科学计算应用中海量数据I/O特性及特殊作业形态进行优化。因而,迫切需要结合分布式数据密集型科学计算应用的共性需求,开展面向科学计算的海量数据资源管理及其优化技术研究与系统实践。本文即以面向科学计算的海量数据资源管理及其优化技术为主要研究内容,在深入分析分布式数据密集型科学计算应用中海量数据I/O的典型特征、数据管理的典型需求的基础上,针对当前面向科学计算的数据资源管理技术现状及其不足,识别出分布式文件系统参数组合优化问题、广域网海量数据传输性能优化与容错问题、异构环境中数据密集型作业的多资源协同调度问题等科学数据资源管理及其优化技术研究中的三大关键问题,并提出一系列面向科学计算的数据资源管理及其优化领域的创新技术,结合上述工作,设计并实现了服务网格系统CROWN中的节点服务器组件NodeServer与数据网格中间件CROWN-Data。本文的主要技术突破包括:基于分散搜索的分布式文件系统黑箱优化技术SSOpt、并发度动态调整的高可靠数据传输技术DART、数据感知的自适应协同调度技术DAAS,上述技术在服务网格系统CROWN中得到有效验证。本文的具体研究内容如下:(1) 基于分散搜索的分布式文件系统黑箱优化技术SSOpt面向海量科学数据资源的分布式存储管理需求,重点研究底层文件系统的参数设置对上层科学应用性能的影响及其优化技术。针对分布式文件系统参数组合优化问题,提出基于分散搜索的分布式文件系统优化技术SSOpt,借助分散搜索启发式算法框架在黑箱优化领域良好的性能,设计面向底层文件系统参数组合设置的启发式优化算法,为科学计算应用的性能优化提供坚实支撑。(2) 并发度动态调整的高可靠数据传输技术DART 面向科学应用中数据传输的高效性与可靠性需求,针对网络计算环境中数据传输并发度对性能的影响以及数据传输过程的可靠性保障问题,提出并发度动态调整的高可靠数据传输技术DART,借助传输过程中动态网络负载信息,设计数据传输并发度动态调整算法;借助检查点技术以及错误感知技术,设计数据传输的高可靠性保障机制,实现海量数据传输速率优化与可靠性保障。(3) 数据感知的自适应协同调度技术DAAS面向科学计算应用中数据资源与计算资源协同处理作业的调度需求,研究数据传输时间对作业完成时间的影响及其优化问题,提出了数据感知的自适应协同调度技术DAAS,降低数据传输对作业完成时间的影响,优化系统资源的使用效率。(4) 基于服务网格技术的数据资源管理组件面向基于广域网的科研协作支撑环境中的数据资源管理及其优化需求,结合上述工作,重点研究基于服务网格技术的数据资源管理及其优化技术,研制了数据网格系统中的节点资源管理服务容器组件NodeServer与数据网格中间件CROWN-Data,为广域网环境下海量科学数据管理提供了软件基础设施及系统部署实践。
相关内容
相关标签