当前位置:问答库>论文摘要

题目:面向E级超级计算机性能分析数据采集技术的研究与实现

关键词:E级超级计算机;性能分析;在线识别;环境感知

  摘要


随着超级计算机的进一步发展,E级(百亿亿次)超级计算机的设计与开发已经被各国提上了日程。E级超级计算机所具有的超大并行规模给并行程序性能分析工具带来了更大的挑战。因此,并行程序性能分析工具需要在诸多方面进行改进,例如利用工具层级化提高程序的可扩展性、降低性能数据量、减少性能数据采集的额外开销、快速进行性能数据分析以及增强并行程序性能分析工具与软件栈中其他软件的联系等。本文主要关注E级超级计算机系统中,并行程序性能分析工具数据采集分析部分的设计与实现。

首先,本文对E级软硬件结构发展趋势及其对性能分析工具的影响进行了分析,调研了现有并行程序性能分析工具,重点调研了现有工具中数据采集和压缩的方法,并比较了不同方法的优缺点。基于此本文总结了E级并行程序性能分析工具所面临的挑战,设计了分层次的工具软件的体系结构。

其次,本文提出了一种在线分析低效行为模式的方法,并以低效行为模式的严重程度为标准进行轨迹数据过滤,以减少事后分析需要的数据量。过滤使用的低效行为模式由本文通过分析MPI实现得到,扩充了MPI中的低效行为模式的内容,涵盖了MPI标准中大部分阻塞式通信和同步函数。

再次,本文设计了环境感知的性能数据采集和转储方法,以适应E级超级计算机环境资源紧缺的特点。该方法核心特点在于关注资源使用情况,接入了环境资源监控软件的数据,实现了环境资源感知。进行数据采集时,将环境资源使用情况整合进程序运行轨迹,使程序设计人员能够了解函数与环境资源的相互关系,进行资源使用调优;在轨迹数据转储的过程中,探测环境资源的使用情况,在环境负载较低的时候进行转储,减少对被监控程序的影响,加速程序运行。

最后,本文实现了上述功能并进行了实验验证。实验内容包括使用混合数据采集方法进行并行程序优化;通过对比轨迹数据量,验证低效行为模式在线识别和过滤方法的有效性;通过对比程序运行时间,验证环境感知转储方法的有效性。