● 摘要
基于机群的负载均衡系统,提供了强大的批处理和并行计算能力,并且由于其卓越的性能价格比、良好的可扩展性和高可用性,代表了高性能计算发展的方向。作为负载均衡系统软件的重要组成部分,机群作业调度系统可以根据用户的需求,统一管理和调度机群的软硬件资源,保证用户作业公平合理地共享资源,提高系统利用率和吞吐率。因此,负载均衡系统中作业调度策略的研究己成为高性能计算机领域的一个热点问题。本文以优秀的负载均衡产品Platform LSF为研究对象,深入研究了该产品的功能、结构、作业管理方式、调度框架及插件机制等。为了使LSF产品能够提供更加合理和先进的多机群调度策略,本课题扩展了现有LSF Multi-Cluster作业调度系统,以满足企业日益增长的计算需求。本课题设计实现了三种新的多机群调度策略,包括保证重要作业优先执行的抢先式作业调度、保证多个用户能够公平共享计算资源的公平共享作业调度以及满足用户个性化需求的预定式作业调度。另外,为了使新的调度策略能够集成到原有系统中,改进了原有的数据传输、数据处理和信息记录功能。经过测试,新的多机群调度系统能够更好的平衡多机群的负载,解决了不同作业的差异化调度问题,使整个LSF产品具有更高的可用性。