当前位置:问答库>论文摘要

题目:适用于数据密集型并行系统的检查点技术研究与实现

关键词:检查点;非协同式;并行计算;数据密集型

  摘要

在数据密集型计算领域中,并行集群占据重要的地位,而检查点机制是保证其可靠性的有效手段。实际应用计算对系统实时性、计算可靠性要求不同,检查点设置方法也有所不同。目前许多检查点设置着重于研究阶段,考虑情况同具体应用有一定的差距,需要根据应用的具体需求来实现检查点功能。本课题来源于北京航空航天大学软件工程研究所承担的863重点项目——“油气地震资料处理与解释一体化软件系统”子课题。该课题目的在于,在集群架构的高性能计算机的环境下,最大限度的挖掘大规模计算节点的潜能,提高地震数据的处理速度,简化并行程序的开发难度,提高开发效率,并且采取一定的措施提高系统的容错能力。检查点技术是本课题中的一个研究内容,是其中一个关键性技术难点。本文阐述了检查点技术在提高集群容错能力上的重要作用和意义,介绍了检查点设置及回卷恢复的概念,介绍了国内外相关领域的研究现状,并对现有的实现方法和技术进行了综述。然后深入研究了协同式检查点设置算法及非协同式检查点算法的特点,并对比其优缺点。最后本文在结合了数据密集型并行系统特点的基础上,面向地理信息处理领域的计算,介绍了一种具有较好性能的检查点实现方法。本文针对数据密集型并行系统的检查点设置要求,解决了以下几个问题:数据密集型计算集群设置检查点的原子性;多线程计算设置检查点的安全性;集群计算节点间异步设置检查点;集群系统的整体一致性保证;检查点文件的迁移;垃圾文件处理等。本文针对数据密集型并行系统,面向地理信息处理领域,在Linux集群环境下设计并实现的检查点系统,经过实验证明,能够在用户级对集群实现检查点功能,具有较好的功能及性能,并具有一定的通用性。