当前位置:问答库>论文摘要

题目:复杂系统高性能仿真云容错算法研究

关键词:复杂系统高性能仿真云,容错算法,失效检测器,同步检查点间隔,带冗余的分布式存储

  摘要


   复杂系统通常组元数目庞大、交互繁杂,其涌现、突变、混沌等特性,为建模与仿真工作带来了困难。复杂系统高性能仿真云(High Performance Simulation Cloud oriented Complex System,简称HPSC-CS)是将各类高性能仿真资源和仿真能力虚拟化、服务化,构成高性能仿真资源和仿真能力的服务云池,并对其协调优化的管理和运营,使用户通过网络和终端就能随时按需获取高性能仿真资源与能力服务以完成复杂系统仿真的一种仿真新模式和新手段。

   在HPSC-CS系统中,高性能仿真计算机是仿真资源的核心组成部分。针对一般仿真任务,一台高性能仿真计算机可以同时服务于数千用户;针对复杂系统仿真任务,其数十、数百乃至数千的节点(处理器、进程)需要采取协同形式可靠地共同工作。不同于一般的仿真云,对复杂系统高性能仿真云中参与仿真任务节点的加入、移出,以及不同节点间的同步性等方面需要采取特殊的处理技术。

   容错是HPSC-CS的关键技术之一,因为即使单一节点失效,也会导致整个仿真任务无法运行。该系统的容错框架、策略主要包括两点:一是如何检测失效节点,二是如何利用检查点技术对仿真中间结果进行备份、恢复。其中的关键算法有:失效检测器设计、检查点间隔估计以及检查点文件的存储配置。

   针对上述算法,本文主要工作有:

   1.设计了一种随机失效检测器Epsilon-FD,解决了积累型检测器由于通信链路丢包所引起的误判,同时性能(检测时间、准确率)有所提升;

   2.提出了一种同步检查点间隔估计算法HPSC-CS-Chki,解决了当前方法在估计过程中,未考虑节点加入、移出的问题;

   3.提出了一种带冗余的分布式存储算法HPSC-CS-Ds,解决了当前方法寻优速度慢的问题。

   理论分析及数值验证表明了所提算法的有效性,上述方法可指导HPSC-CS系统容错模块的开发,并应用到无线传感器网络、云存储、超大规模高性能计算机研发等相似领域中。