当前位置:问答库>论文摘要

题目:大规模分布式计算基础设施中资源协同调度系统研究

关键词:大规模分布式计算框架,资源能力模型,资源动态评级,协同预留调度

  摘要

高性能计算领域中以网格计算和云计算为基础的大规模分布式计算基础设施(Large-scale Distributed Computing Infrastructure,LDCI)为共享和协同使用大量计算资源提供了解决方案。当前重大的科学应用计算任务不仅对计算资源需求越来越多,同时其计算流程也越来越复杂,需要协同众多的资源进行计算。因此,需要实现支持复杂应用的大规模异构资源协同调度技术。面对LDCI环境中资源的大规模性、异构性、动态可用性,以及应用任务的计算密集性和协同约束复杂性,如何在LDCI环境的任务调度过程中实现有效的资源管理和协同任务调度,成为一个函待解决的挑战性问题。首先,由于资源的大规模性、异构性和应用的计算密集性,导致LDCI在进行资源匹配时过程复杂,需要支持多个资源的聚合,因此需要一种资源描述的机制,统一描述资源的各种特性,支持聚合资源并简化资源的匹配过程;第二,由于LDCI动态的负载和不断变化的资源可用性,导致现有的评级方法难以准确描述资源状态信息,因此需要一种动态评级方法获取资源的实际状态并进行评级。第三,由于现有的LDCI调度方法很难支持计算密集型并行科学应用的协同预留调度,无法保证应用中复杂的时间约束和性能约束,因此需要一个支持计算密集型并行科学应用的协同资源预留架构,在协同调度多个资源时保证作业对多个资源的独占。针对上述问题,本文重点研究了LDCI环境下资源协同执行过程中的聚合资源匹配、资源动态评级和资源协同预留调度等内容,并在此基础上设计实现了支持大规模异构资源自动协同执行的中间件Migol(Migration in the Grid OGSA Lite)调度系统。主要研究成果如下:1. 提出基于资源能力模型的资源聚合与匹配机制。针对LDCI中资源请求的大规模性、异构性和科学并行应用的计算密集性,首先,考虑定义资源能力模型中单个资源的各项属性并给出单个资源形式化的能力描述。然后,基于能力模型将多个资源进行聚合和匹配,形成资源聚合与匹配方法,并且在此基础上提出其对应的XML格式的GSO描述语言(Grid Service Object)用于描述资源和资源需求。通过与相关研究对比分析表明,本文提出的计算资源能力模型描述信息更全面,精确描述资源能力,能有效支持资源聚合和匹配。基于资源能力模型的资源聚合与匹配机制能满足LDCI中大规模异构资源匹配过程中的能力需求。2. 提出基于用户聚类的作业执行时间估算算法(User-Based Clustering Execution Time Estimation,UBCETE)的最短期望延迟(Shortest Expected Delay,SED)动态资源评级方法。针对LDCI中资源的动态变化的负载和资源可用性,首先,给出SED原则的定义及其计算公式。然后,对于方法中计算队列等待时间时使用的作业时间,基于用户提交模式的分类对历史作业信息进行分析,给出UBCETE算法,提高SED评级过程的准确性。实验结果表明UBCETE算法时间复杂度低、时间消耗短,而且UBCETE算法的准确率相对于已有的同类算法也有提高,同时SED资源评级方法准确性也较高,能满足资源动态评级的需求。3. 提出基于最早执行时间估算(Earliest Start Time Estimation,ESE)预留资源选择算法的两层资源协同预留架构。针对LDCI中应用复杂的时间约束和性能约束,首先,给出两层协同资源预留架构以支持协同预留的原子性。然后给出并行任务和协同预留的生命周期管理办法,最后,基于偏好本地作业原则(Local-Job-Preferred Principle)提出基于ESE的预留资源选择算法来提高预留资源选择的准确性。实验结果表明ESE算法和基于两层资源协同预留架构的调度算法扩展性较好,同时ESE算法在选择预留资源时能保证本地作业的公平性,并能在应用环境中保证选择预留资源时的正确率。4. 设计并实现了支持大规模异构资源自动协同执行的中间件Migol调度系统并进行了性能评估。针对LDCI资源调度过程中的计算聚合资源匹配、动态资源评级和资源协同预留调度这三项关键技术,设计并实现了支持资源能力模型、支持SED资源评级方法、支持两层协同预留调度的资源调度系统Migol,其中包括支持资源能力模型的应用信息服务(Application Information Service,AIS)、支持SED资源评级方法和两层协同预留调度架构的作业分发服务(Job Broker Service,JBS)和提前资源预留服务(Advance Reservation Service,ARS),同时评估了该系统的性能,为LDCI中运行计算密集型并行科学运算程序提供协同资源调度支持。论文的研究成果已应用于德国波茨坦大学计算网格项目和中国国家地震网络计算应用系统中,验证了本文研究成果的有效性