● 摘要
近年来SRAM型FPGA星载处理器因其高性能、可重构等优点被广泛地应用于地球轨道卫星,载人空间站以及各种行星探测器中。但是,在空间环境下,高能粒子和射线带来的辐射效应不仅会严重影响SRAM型FPGA星载处理器的正常运转,而且会大幅降低其在轨寿命,甚至造成航天器失效。传统的设计方法多采用冗余和重构技术来提高系统的可靠性,但是存在对配置资源软错误评价不准确、空闲资源容错的资源使用率限制、可靠性评价时间长等问题。本文在分析典型辐射环境故障失效模型的基础上,以可靠度、系统失效率和平均失效时间为具体验证与评估指标,分别从避错、容错和检错三个方面研究星载处理器SRAM型FPGA的可靠性增强技术。
SRAM型FPGA避错设计的目的是减少配置资源出现故障的概率,其关键在于配置资源错误评估。传统的FPGA可靠性评估多是在逻辑门级评估系统失效率。这种方法缺乏对配置资源中布线资源错误的有效评估,无法合理降低布线资源发生软错误的可能性。因此,本文根据布线资源软错误的形成机理,提出了布线资源错误概率评估指标,为量化分析布线资源中开关盒短路故障、开关盒内桥接故障、开关盒间桥接故障提供了新的依据;在此基础上,本文完善了系统失效率评估机制,并构建了基于布线资源错误概率评估的软错误缓解布局布线算法,实现了对所有配置资源的有效评估。仿真实验表明,本算法与传统系统失效率评估手段相比,在几乎不增加硬件开销的前提下,减少了软错误发生的可能性约18%,有效降低了系统失效率,因此特别适用于卫星等受资源约束的特殊应用。
SRAM型FPGA的容错设计是为了保证在出现故障的情况下系统依然能够完成既定任务,是对避错技术的重要补充。传统的容错手段多采用大量额外的冗余资源容忍错误的发生,但系统可靠性提升范围受限于卫星载荷约束。因此,本文利用FPGA中空闲的配置资源进行冗余,通过定义替换矩阵解析描述空闲资源与逻辑功能单元的替换关系,并在此基础上提出了基于空闲资源最大可靠度的星载处理器容错算法。该算法以最大化系统可靠性为基本准则,优化系统空闲资源的初始布局,提高了对空闲资源的有效利用率;在出现错误时,比较约束范围内空闲资源替换后系统的可靠度,进而选择可靠度下降最慢的空闲资源进行替换,从而保证系统在修复错误后平均错误间隔时间最大,提高了系统的可靠性。因为该算法仅利用了未被使用的单元,所以不需要增加额外的硬件资源开销。与固定空闲资源分配方式相比,其空闲资源的利用率和错误修复率显著提升。
SRAM型FPGA的检错是指对系统的可靠性进行验证的各种方法。故障注入法是一种最有效的检测方法,通常可分为遍历故障注入方法和随机故障注入方法。由于SRAM型FPGA配置资源数量巨大,遍历故障注入方法需要花费过久的时间,而随机故障注入方法的覆盖率有限。因此,本文通过对电路在逻辑门级和模块级的可靠性预分析,设计了良好的故障集合,从而能够在保证较高故障注入成功率和覆盖率的同时,有效缩短故障注入时间。
综上所述,本文提出的软错误缓解、空闲资源容错、可靠性快速评估方法可有效地提高SRAM型FPGA星载处理器的可靠性,具有良好的理论意义和实际应用价值。
相关内容
相关标签