● 摘要
集群作为一种具有高性能、低成本等特点的计算机体系结构,越来越多地在各类高性能并行计算领域得到应用;同时,随着集群系统越来越普遍的应用和人们对于更高计算性能的需求,逐渐地出现了多集群系统。在集群系统的应用中,作业管理系统对于计算能力和易用性有巨大的影响,因此相关的研究得到了广泛的关注和重视。但是,当前绝大多数作业管理系统都是针对单集群系统进行设计的,并不支持多集群系统。并且,在一些特殊的应用需求中,需要构建一个多集群计算环境来提供更强、更灵活的计算能力,该环境由多个集群组成,各集群有独立的管理域并可单独工作,集群之间处于对等地位。这种特殊需求对于作业管理系统的设计和实现都提出了更高的要求。经过对于在多集群中实现可重组性可以采用的各种体系结构进行分析和比较,同时考虑到实现的难易程度,选择了分布式管理集中式调度的体系结构。然后探讨了在这种体系结构下实现可重组性的相关问题,并针对集群的加入和退出,分别提出和引入了聚合算法与选举算法。作业共享和协同分配是多集群共享负载的两种方式。与作业共享相比,协同分配能够利用多个集群上的“碎片”资源来满足作业的需求,提高了整个系统的利用率。本课题就作业管理系统对于协同分配的支持进行了研究,包括分析了协同分配的各个阶段和PBS对于各个阶段的支持机制和不足,并给出了改进方法。最后,结合上述的研究成果,基于PBS设计并实现了支持可重组机制和协同分配机制的多集群作业管理系统。
相关内容
相关标签