当前位置:问答库>论文摘要

题目:多集群通信与作业调度的设计与实现

关键词:集群,作业,资源,集群间通信,调度策略

  摘要



网格是继传统因特网、Web之后的第三次互联网浪潮,可以称之为第三次因特网的应用。集群作为网格计算的主要研究方向之一,各大公司纷纷推出相应的集群产品。集群把指定机器的计算资源组成一个虚拟的、共享的超级计算机,为用户提供透明的计算服务。其主要内容是监控机器的负载,并根据调度策略对作业进行调度,提高机器的使用率,缩短作业的运行时间,降低机器的管理成本,实现作业和资源的共享。

本文基于LSF(Load Sharing Facility)集群,设计新的插件,使作业和资源信息在集群间共享,实现了作业在集群之间的派发及运行,从而完成了集群间通信,集群间通信提高了集群的使用率;集群间调度提取出了用户对集群的使用率因子,设计了一种基于使用率因子的公平调度算法,在提高集群使用率的基础上尽可能的保证用户对资源使用的公平性。其中集群间的通信以插件的形式与原系统结合,既对LSF的功能进行了扩展,也最小幅度的减少了对原系统的影响,从而补充了该产品在多集群之间通信和调度调度功能,使集群的调度更加有效、合理。错误消息与日志记录等采用与LSF相同的设计原则来实现。本课题解决集群间资源作业分布不平衡,作业调度效率低下、资源利用率和吞吐率低等问题,提高了集群作业调度性能,降低客户计算资源的成本。

通过测试表明,本文实现的作业调度模块取得了较好的调度效果和较高的资源利用率和吞吐率,解决了因大批量作业的特殊性而在调度过程中产生的资源饥饿和空闲等问题。

相关内容

相关标签