● 摘要
研制高可靠性计算机是很多领域追求的一个目标,从航天用星载计算机到金融领域内使用的高端服务器,都要求所使用的计算机具有高可靠性。有两种手段可以实现这个目的:采用避错或容错技术。避错是一种事前措施,试图避免故障的产生,一般通过增加一些设计规则来实现避错。但是系统发生故障是难免的,重要的是如何保证此后系统不会失效,而容错技术就是为解决这个问题而产生的。实现容错的手段总体来说有四类:硬件冗余,软件冗余,信息冗余和时间冗余。本文主要讨论硬件冗余及建立在此基础上的软件实现的冗余管理。文章介绍的容错计算机采用了三模冗余硬件结构,每一模对应一台嵌入式计算机,我们按照实际系统对数据的处理过程,将系统划分成四阶段任务,在此基础上采用多级表决的方式实现容错功能。其中前三级采用分布式软件静态表决方式,即在每台嵌入式计算机上设置了软件表决点,有效屏蔽了系统中出现的单点故障。最后一级采用集中式硬件表决加硬件比较方式。有一个独立的表决器板对三台嵌入式计算机的输出结果进行先表决,后比较,最后选通输出的方式进行控制。由于采用的表决器使用自适应表决逻辑,使得系统具备动态重构能力,即系统可以随着永久故障的出现而降级使用,也可随着故障模块的恢复实现系统的升级使用。文章首先介绍了该系统的总体设计和工作原理,然后介绍系统内部计算机之间的通信机制,并对容错机制进行了分析和设计,在阐明了这些关键技术点后,文章介绍了整个系统软硬件实现的细节:包括三个同构的通道板和一个硬件表决器板。最后介绍系统的测试方案。