优秀研究生学位论文题录展示

应用级checkpointing技术的研究与实现

专 业: 计算机科学与技术
关键词: checkpointing技术 高性能计算机 LAMP 数据一致性
分类号: TP301
形 态: 共 115 页 约 75,325 个字 约 3.603 M内容
阅 读: 全文阅读说明

内容摘要


随着系统规模的不断扩大和COTS器件制造工艺的不断发展,高性能计算机面临着严峻的可靠性挑战。

应用级checkpointing技术是应对这一挑战的关键技术。

但是,当前应用级checkpointing技术面临着性能优势无法充分发挥以及不方便使用的问题。

本文致力于高效易用的应用级checkpointing技术的研究与实现,着重研究了应用级checkpoint的优化保存问题,应用级checkpoint全局状态一致性问题,多checkpoint的总开销最优化问题和应用级checkpointing技术易用性问题。

本文的主要贡献可概括为以下几点:

1、针对现有活跃变量分析方法不能对MPI并行程序进行准确分析的问题,我们定义了MPI并行程序进程间和进程内的定值.引用关系,并提出了MPI并行程序活跃变量分析方法--LAMP。

LAMP克服了传统活跃变量分析方法既不能区分同一个变量在各进程上不同的活跃性、也不能分析跨进程定值.引用关系的缺点,它是优化应用级checkpoint数据量从而减小checkpoint开销的基础技术。

2、深入研究了应用级checkpoint的优化保存问题。

我们首先分析了MPI并行程序计算状态的组成,确定了对其中占主要部分的各进程计算状态进行优化的思想:

然后提出了一种基于LAMP的应用级checkpointing技术。

实验结果表明该技术能够有效减小checkpoint数据量和减小checkpoint开销。

3、深入研究了全局checkpoint数据的一致性问题。

我们提出了一个基于编译分析保持应用级checkpoint数据一致性的新方法。

该方法不需要记录checkpointing期间的early或late消息,而是通过静态分析找出MPI程序中安全的checkpointing区域的方法,在安全的checkpointing区内保存应用级checkpoint时不需要记录任何消息。

实验证明该方法简单有效。

4、深入研究了多个checkpoint的总开销最小化问题,提出了一种优化设置多个checkpoint位置的方法。

由于应用级checkpointing开销主要来自写checkpoint文件的时间,我们首先将求解最小的checkpoint总开销近似为求解最小的checkpoint总数据量。

然后将多checkpoint的优化设置问题抽象为一个类似于0-1整数规划的数学问题。

最后给出了两种求解算法。

5、针对应用级checkpointing的易用性问题,我们设计并实现了一个源到源的预编译器ALEC,它可以非常方便地将普通的Fortran77\MPI程序转换成具有高效的应用级checkpointing功能的容错程序..……

全文目录


文摘
英文文摘
论文说明:图表目录
第一章 绪论
1.1课题背景
1.1.1高性能计算的普及应用
1.1.2高性能计算面临的可靠性挑战
1.2相关研究工作
1.2.1容错的基本概念和常用方法
1.2.2 Rollback-recovery容错技术分析
1.2.3优化checkpoint开销的相关研究
1.2.4相关工作小结
1.3课题研究内容
1.3.1课题来源
1.3.2课题研究重点
1.3.3课题研究难点
1.4本文的主要工作和创新
1.5 Checkpointing技术的几个术语
1.6论文结构
第二章 MPI并行程序活跃变量分析方法--LAMP
2.1 MPI并行程序分析
2.1.1并行编程模型
2.1.2并行程序的实现方式
2.1.3 MPI程序设计与执行的特点
2.2 MPI程序的应用级checkpoint数据
2.2.1一个MPI程序实例
2.2.2并行程序活跃变量的定义
2.3 LAMP
2.3.1分析块与MPI程序流图
2.3.2 LAMP分析方法
2.3.3 LAMP方法举例
2.4本章小节
第三章 基于LAMP的应用级checkpointing技术
3.1求解指定checkpoint位置各进程上的活跃变量集合的算法
3.1.1初始分析
3.1.2更新
3.1.3 Checkpoint数据量最小化问题
3.1.4增量式checkpointing
3.2选择合适的checkpoint位置
3.2.1一般算法
3.2.2简化算法
3.3应用级checkpoint的保存和恢复
3.3.1保存和恢复应用程序的执行位置
3.3.2保存和恢复应用状态
3.3.3处理MPI库状态
3.3.4应用状态保存和恢复方法的特点
3.4实验评估
3.4.1实验方法
3.4.2实验结果
3.5本章小结
第四章 应用级checkpoint数据的一致性问题研究
4.1问题背景
4.1.1一致性问题的几个基本概念
4.1.2现有解决方法分析
4.1.3小结
4.2安全的checkpointing区
4.2.1强一致性的概念
4.2.2安全的checkpointing区
4.3识别安全的checkpoiming区
4.3.1 MPI程序特征分析
4.3.2识别通信线/区
4.4实验评估
4.4.1实验设置
4.4.2实验结果
4.5本章小结
第五章 多checkpoint的优化设置
5.1问题背景
5.2数学模型及求解
5.2.1问题一:程序中已有N个checkpoint指令
5.2.2问题二:程序中没有checkpoint指令
5.3实验评估
5.3.1实验设置
5.3.2实验结果
5.4本章小结
第六章 ALEC系统的设计与实现
6.1 ALEC的结构和实现
6.1.1词法分析
6.1.2分块并创建流图
6.1.3识别安全的checkpointing区
6.1.4活跃变量分析
6.1.5 Checkpoints选择
6.1.6插入保存与恢复代码
6.2 ALC-Tool的设计方案
6.3本章小结
第七章 结束语
7.1工作总结
7.2研究展望
参考文献

相似论文

  1. 基于涌现视角的多Agent系统分析研究,172页,TP301.6 TP181
  2. 相似矩阵与谱聚类,62 页,TP301.6 TP311.13
  3. 改进的粒子群算法及其在控制器参数整定中的应用,54页,TP301.6
  4. 动态可重构片上系统的任务在线放置和调度算法研究,51页,TP301.6 TP311.52
  5. 关联规则算法的研究,61页,TP301.6
  6. 主题爬虫搜索Web页面策略的研究,62页,TP301.6 TP393.092
  7. 基于纹理的高质量矢量可视化研究,145页,TP301.6 TP391.41
  8. 基于智能优化算法的体绘制研究,133页,TP301.6 TP391.41
  9. 跨智能空间上下文共享研究,120页,TP301.5
  10. 基于多个通道的概率进程演算模型,68页,TP301
  11. 高可用双机容错系统软件健壮性测试,63页,TP302.8 TP311.52
  12. 商业自动化系统数据安全技术的研究,51页,TP309 F716
  13. CA认证中心密钥生成与私钥封装系统的设计与实现,79页,TP309.7
  14. 基于Linux的可穿戴计算机导航定位系统设计与实现,70页,TP302.1
  15. 同时多线程踪迹处理器后端实现与研究,47页,TP302.1
  16. 基于准则和策略的自治式多agent服务协同体系研究,134页,TP301
  17. 虚拟域可信链的设计与实现,69 页,TP309.1
  18. 可信计算平台中TOCTOU攻击的响应方法,67 页,TP309.1
  19. 高性能DSP指令控制部件优化设计研究,74页,TP302.2
  20. 用于灾难恢复的远程备份系统的研究,68页,TP309.3
中图分类: > TP301 > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 一般性问题 > 理论、方法

© 2012 book.hzu.edu.cn