DMTCP: Checkpoint-Restart on the Desktop
DMTCP:检查点-在桌面上重新启动
基本信息
- 批准号:0960978
- 负责人:
- 金额:$ 36.88万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2010
- 资助国家:美国
- 起止时间:2010-05-15 至 2014-04-30
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Title: DMTCP: Checkpoint-Restart on the DesktopPI: Gene CoopermanNSF Proposal Number: 0960978ABSTRACT: This work builds upon the existing open source, user-space DMTCP packagefor transparent, distributed checkpointing. Three goals will be accomplished:(i) checkpoint-restart of long-running computations on the desktop;(ii) save-restore of interactive software packages; and (iii) a universalreversible debugger. The first two goals will allow software developmentteams to add to their package a reliable "save workspace" feature --- withno requirement for a kernel module or other privileged operations.The third goal is to enhance any debugger with reversibility (e.g. aback-step command), and with a reverse expression watchpoint command tomove backwards from a software error to the original software fault.INTELLECTUAL MERIT:While checkpointing has existed for over 20 years, earlier packageswere difficult to maintain. The unprivileged, user-space design ofDMTCP has a five-year track record. It is ideal for integration intoother software, where any end-user requirement for installation of akernel module or other administrative privilege is incompatible withwidespread distribution. Finally, DMTCP is the first package able todirectly checkpoint a gdb session (the gdb process and its target process)-- a key feature for the envisioned new type of reversible debugger.BROADER IMPACT:Checkpointing and process migration have long been of interest for scienceand engineering, but too often suffered from software fragility or specialrequirements. The DMTCP approach removes these obstacles. Further,the wider use of ``time-traveling (reversible) debuggers'' will greatlyaccelerate software development due to the greater ease of finding bugs.A NIST report estimates the cost of software bugs to the economy at$59.5 billion per year. Finally, the excitement factor of checkpoint-restarton the desktop helps attract and motivate students toward the learningof sometimes arcane systems issues in this critical technology.
职务名称: DMTCP:检查点-在桌面上重新启动PI: Gene CoopermanNSF提案编号:0960978摘要:这项工作建立在现有的开放源代码,用户空间DMTCP包透明,分布式检查点。 将实现三个目标:(一)检查点-桌面上长时间运行的计算的重新启动;(二)交互式软件包的保存-恢复;(三)通用的可逆调试器。 前两个目标将允许软件开发团队在他们的软件包中添加一个可靠的“保存工作区”特性-而不需要内核模块或其他特权操作。第三个目标是增强任何具有可逆性的调试器。(例如,aback-step命令),并使用反向表达式watchpoint命令从软件错误向后移动到原始软件故障。虽然检查点已经存在了20多年,但早期的包很难维护。 DMTCP的无特权用户空间设计已有五年的历史。 它非常适合集成到其他软件中,其中任何最终用户对安装akernel模块或其他管理权限的要求都与广泛的分发不兼容。 最后,DMTCP是第一个能够直接检查gdb会话(gdb进程及其目标进程)的软件包--这是设想中的新型可逆调试器的一个关键特性。更广泛的影响:检查点和进程迁移长期以来一直是科学和工程界的兴趣所在,但往往受到软件脆弱性或特殊要求的困扰。 DMTCP方法消除了这些障碍。 此外,更广泛地使用“时间旅行(可逆)调试器”将大大加速软件开发,因为更容易找到错误。NIST的一份报告估计,软件错误每年给经济造成的损失为595亿美元。 最后,检查点的刺激因素--桌面上的重启有助于吸引和激励学生学习这一关键技术中有时很神秘的《双城之战》系统问题。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Gene Cooperman其他文献
Implementation-Oblivious Transparent Checkpoint-Restart for MPI
MPI 的实施-不经意的透明检查点-重启
- DOI:
10.1145/3624062.3624255 - 发表时间:
2023 - 期刊:
- 影响因子:0
- 作者:
Yao Xu;Leonid Belyaev;Twinkle Jain;Derek Schafer;A. Skjellum;Gene Cooperman - 通讯作者:
Gene Cooperman
Gene Cooperman的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Gene Cooperman', 18)}}的其他基金
NSCI: SI2-SSE: An Extensible Model to Support Scalable Checkpoint-Restart for DMTCP Across Multiple Disciplines
NSCI:SI2-SSE:支持跨多个学科的 DMTCP 可扩展检查点重启的可扩展模型
- 批准号:
1740218 - 财政年份:2018
- 资助金额:
$ 36.88万 - 项目类别:
Standard Grant
SI2-SSE: Enhancement and Support of DMTCP for Adaptive, Extensible Checkpoint-Restart
SI2-SSE:DMTCP 的增强和支持,以实现自适应、可扩展的检查点重启
- 批准号:
1440788 - 财政年份:2014
- 资助金额:
$ 36.88万 - 项目类别:
Standard Grant
AF:Small: Computation in Very Large Groups
AF:Small:非常大的组中的计算
- 批准号:
0916133 - 财政年份:2009
- 资助金额:
$ 36.88万 - 项目类别:
Standard Grant
MRI: Enabling Research on Terabyte-Scale Datasets
MRI:支持 TB 级数据集的研究
- 批准号:
0619616 - 财政年份:2006
- 资助金额:
$ 36.88万 - 项目类别:
Standard Grant
Scalable Parallel Symbolic Computation for Irregular Problems
不规则问题的可扩展并行符号计算
- 批准号:
0204113 - 财政年份:2002
- 资助金额:
$ 36.88万 - 项目类别:
Continuing Grant
Parallel Infrastructure for Recognition of Non-Local Patterns from Particle Detectors
用于从粒子探测器识别非局部模式的并行基础设施
- 批准号:
9872114 - 财政年份:1999
- 资助金额:
$ 36.88万 - 项目类别:
Standard Grant
Connections Among Applied Computational Group Theory, Matrix Representations, and Parallel Computations
应用计算群理论、矩阵表示和并行计算之间的联系
- 批准号:
9732330 - 财政年份:1998
- 资助金额:
$ 36.88万 - 项目类别:
Standard Grant
MRI: A High-Performance, Low-Cost Testbed for Network-based Research
MRI:用于基于网络的研究的高性能、低成本测试平台
- 批准号:
9871022 - 财政年份:1998
- 资助金额:
$ 36.88万 - 项目类别:
Standard Grant
U.S.-German Cooperative Research in Computational Algebra and High-Speed Networks
美德在计算代数和高速网络方面的合作研究
- 批准号:
9722439 - 财政年份:1997
- 资助金额:
$ 36.88万 - 项目类别:
Standard Grant
East Coast Computer Algebra Day, Northeastern University, Boston, MA, May 3, l997
东海岸计算机代数日,东北大学,马萨诸塞州波士顿,1997 年 5 月 3 日
- 批准号:
9707543 - 财政年份:1997
- 资助金额:
$ 36.88万 - 项目类别:
Standard Grant
相似国自然基金
NK细胞抑制性受体CD96作为肝癌checkpoint免疫治疗靶点的进一步验证
- 批准号:81972679
- 批准年份:2019
- 资助金额:60.0 万元
- 项目类别:面上项目
相似海外基金
Collaborative Research: OAC Core: CropDL - Scheduling and Checkpoint/Restart Support for Deep Learning Applications on HPC Clusters
合作研究:OAC 核心:CropDL - HPC 集群上深度学习应用的调度和检查点/重启支持
- 批准号:
2403088 - 财政年份:2024
- 资助金额:
$ 36.88万 - 项目类别:
Standard Grant
Collaborative Research: OAC Core: CropDL - Scheduling and Checkpoint/Restart Support for Deep Learning Applications on HPC Clusters
合作研究:OAC 核心:CropDL - HPC 集群上深度学习应用的调度和检查点/重启支持
- 批准号:
2403090 - 财政年份:2024
- 资助金额:
$ 36.88万 - 项目类别:
Standard Grant
Collaborative Research: OAC Core: CropDL - Scheduling and Checkpoint/Restart Support for Deep Learning Applications on HPC Clusters
合作研究:OAC 核心:CropDL - HPC 集群上深度学习应用的调度和检查点/重启支持
- 批准号:
2403089 - 财政年份:2024
- 资助金额:
$ 36.88万 - 项目类别:
Standard Grant
NSCI: SI2-SSE: An Extensible Model to Support Scalable Checkpoint-Restart for DMTCP Across Multiple Disciplines
NSCI:SI2-SSE:支持跨多个学科的 DMTCP 可扩展检查点重启的可扩展模型
- 批准号:
1740218 - 财政年份:2018
- 资助金额:
$ 36.88万 - 项目类别:
Standard Grant
Checkpoint restart technologies for hierarchcal storages
分层存储的检查点重启技术
- 批准号:
26540049 - 财政年份:2014
- 资助金额:
$ 36.88万 - 项目类别:
Grant-in-Aid for Challenging Exploratory Research
SI2-SSE: Enhancement and Support of DMTCP for Adaptive, Extensible Checkpoint-Restart
SI2-SSE:DMTCP 的增强和支持,以实现自适应、可扩展的检查点重启
- 批准号:
1440788 - 财政年份:2014
- 资助金额:
$ 36.88万 - 项目类别:
Standard Grant
Analysis of replication fork restart and checkpoint regulation after DNA damage
DNA损伤后复制叉重启和检查点调控分析
- 批准号:
7904373 - 财政年份:2009
- 资助金额:
$ 36.88万 - 项目类别:
Analysis of replication fork restart and checkpoint regulation after DNA damage
DNA损伤后复制叉重启和检查点调控分析
- 批准号:
7694383 - 财政年份:2003
- 资助金额:
$ 36.88万 - 项目类别:
Analysis of replication fork restart and checkpoint regulation after DNA damage
DNA损伤后复制叉重启和检查点调控分析
- 批准号:
7585705 - 财政年份:2003
- 资助金额:
$ 36.88万 - 项目类别:
Analysis of replication fork restart and checkpoint regulation after DNA damage
DNA损伤后复制叉重启和检查点调控分析
- 批准号:
8111989 - 财政年份:2003
- 资助金额:
$ 36.88万 - 项目类别: