当前位置:问答库>论文摘要

题目:多集群系统的作业管理系统研究与实现

关键词:多集群系统;元计算;批处理队列系统;作业管理系统;作业调度算法;集群负载

  摘要

随着航天、军事、生物等领域对高性能计算的需求迅速发展,作为高性能计算领域主流的集群系统,由于其集中式管理,使其可扩展规模受到了一定的限制,造成单个集群所提供的计算能力已经逐渐不能满足高性能应用的发展需求。另一方面,对于一些组织,内部具有多个物理上分散的集群系统,由于集群用户的工作性质、方式和时间的不同,造成了整个组织内部集群负载不均衡,计算资源使用率非常低。 多集群系统就是为了解决上述问题而提出的,它是基于元计算的思想将物理上分散的集群系统通过高速网络有效的组织起来,提供给用户一个强大的高性能计算环境,达到节省投资,提高计算资源的使用率。为此,多集群系统的作业管理系统研究是实现上述问题的基础,也是重点和难点,其目标是在多集群系统中,实现集群资源共享和负载均衡,统一管理和调度用户作业,提高作业吞吐率,缩短作业平均等待时间和总运行时间。因此,本论文以开源产品Torque为基础,依据IEEE组织确立的可移植操作系统批处理队列扩展标准,即POSIX 1003.2d,研究并实现了多集群系统的作业管理系统。 本论文首先分析基于元计算思想构建的多集群系统的结构和NPI组织提供的分布计算环境软件框架,设计了作业管理系统的五层软件模型、执行流程和核心数据;其次,设计出用于处理多集群间事务的multicluster模块,提出并实现了一种惰性的网络连接和用户管理策略以及在集群间作业自动传输策略;其三,总结了集群负载的特性,设计与实现了集群负载评估算法,为多集群系统的作业级负载均衡提供了有效的数据;最后,提出了多集群系统的两级作业调度模型,通过分析影响系统调度算法的因素,设计与实现了用于集群内部作业调度的多分区装填算法和用于集群间作业调度的最少执行时间算法。