摘要: Checkpointing是高性能计算领域最常用的容错技术。但是,当处理器数目变大时,这种技术的性能迅速恶化。提出一种在并行计算中容忍单进程故障的新方法:并行复算。这种方法的主要特征是利用冗余处理器的计算能力而不是冗余磁盘的存储能力实现低开销的容错。还提出这种方法的一个优化方法,将并行复算与checkpoint技术相结合,以进一步减小容错开销,并通过举例说明如何开发一个基于并行复算以及其优化方法的并行程序。最后通过实验对该方法进行评估。结果显示,当处理器数目变大时,并行复算的开销低于checkpointi
No related articles found! |
|