当前位置:问答库>论文摘要

题目:基于MPICH的多集群作业管理系统的设计与实现

关键词:多集群系统;作业管理系统;MPICH;作业管理;资源管理

  摘要

集群技术已经得到了迅速的发展,将分散的集群进行有效的组织和和计算资源共享,是集群技术研究的趋势。本文的研究来源于北京航空航天大学分布与移动计算实验室和航天某院的合作课题“分布式多集群计算环境”DMCCE(Distributed Multi-Cluster Computing Environment),该课题旨在实现一个分布式、灵活管理、可扩展的多集群系统,系统中的各个单元集群可以动态组织和协同工作。MPICH是消息传递接口MPI(Message Passing Interface)的实现,是Windows平台上广泛使用的并行编程工具,它提供了有限的作业管理功能。本文基于MPICH设计了Windows环境下的作业管理系统,实现了多集群环境下的资源管理,集群作业调度和监控功能。首先,本文阐述了集群作业管理系统的基本概念和主要功能,探讨了设计集群作业管理系统的关键技术,确定在MPICH基础上实现作业管理系统的可行性;在此基础上,完成了基于MPICH的多集群作业管理系统的总体设计,提出了分布式层次资源管理模式,设计了系统的层次模型;完成基于MPICH的作业管理的设计和实现,实现了作业加载、作业调度、节点分配、作业队列管理、作业监控、输入输出重定向等一系列功能,并对基于优先级的调度算法进行改进,设计了串行短作业优先调度算法;最后设计了多集群环境下的两级资源管理和资源动态监控,实现了资源的收集、资源信息的管理和资源的图形化显示。