计算机科学 ›› 2009, Vol. 36 ›› Issue (3): 21-25.

• • 上一篇    下一篇

并行复算:一种面向高性能计算的新的容错方法

  

  • 出版日期:2018-11-16 发布日期:2018-11-16
  • 基金资助:
    本文受国家自然科学基金项目(60621003和60603081)资助.

  • Online:2018-11-16 Published:2018-11-16

摘要: Checkpointing是高性能计算领域最常用的容错技术。但是,当处理器数目变大时,这种技术的性能迅速恶化。提出一种在并行计算中容忍单进程故障的新方法:并行复算。这种方法的主要特征是利用冗余处理器的计算能力而不是冗余磁盘的存储能力实现低开销的容错。还提出这种方法的一个优化方法,将并行复算与checkpoint技术相结合,以进一步减小容错开销,并通过举例说明如何开发一个基于并行复算以及其优化方法的并行程序。最后通过实验对该方法进行评估。结果显示,当处理器数目变大时,并行复算的开销低于checkpointi

关键词: 高性能计算 容错 并行复算

Abstract: Checkpointing is the most commonly used scheme for tolerating faults in high-performance computing systems. But this scheme has its performance limitation when the number of processors becomes much larger. The paper proposed a new approach called parallel

Key words: High-performance computing,Fault tolerance,Parallel recomputing

No related articles found!
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!