SI2-SSE: Enhancement and Support of DMTCP for Adaptive, Extensible Checkpoint-Restart
SI2-SSE:DMTCP 的增强和支持,以实现自适应、可扩展的检查点重启
基本信息
- 批准号:1440788
- 负责人:
- 金额:$ 49.92万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2014
- 资助国家:美国
- 起止时间:2014-09-01 至 2018-08-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Society's increasingly complex cyberinfrastructure creates a concern for software robustness and reliability. Yet, this same complex infrastructure is threatening the continued use of fault tolerance. Consider when a single application or hardware device crashes. Today, in order to resume that application from the point where it crashed, one must also consider the complex subsystem to which it belongs. While in the past, many developers would write application-specific code to support fault tolerance for a single application, this strategy is no longer feasible when restarting the many inter-connected applications of a complex subsystem. This project will support a plugin architecture for transparent checkpoint-restart. Transparency implies that the software developer does not need to write any application-specific code. The plugin architecture implies that each software developer writes the necessary plugins only once. Each plugin takes responsibility for resuming any interrupted sessions for just one particular component. At a higher level, the checkpoint-restart system employs an ensemble of autonomous plugins operating on all of the applications of a complex subsystem, without any need for application-specific code.The plugin architecture is part of a more general approach called process virtualization, in which all subsystems external to a process are virtualized. It will be built on top of the DMTCP checkpoint-restart system. One simple example of process virtualization is virtualization of ids. A plugin maintains a virtualization table and arranges for the application code of the process to see only virtual ids, while the outside world sees the real id. Any system calls and library calls using this real id are extended to translate between real and virtual id. On restart, the real ids are updated with the latest value, and the process memory remains unmodified, since it contains only virtual ids. Other techniques employing process virtualization include shadow device drivers, record-replay logs, and protocol virtualization. Some targets of the research include transparent checkpoint-restart support for the InfiniBand network, for programmable GPUs (including shaders), for networks of virtual machines, for big data systems such as Hadoop, and for mobile computing platforms such as Android.
社会日益复杂的网络基础设施引发了对软件健壮性和可靠性的担忧。然而,同样复杂的基础设施正在威胁容错的持续使用。考虑单个应用程序或硬件设备崩溃的情况。今天,为了从该应用程序崩溃的地方恢复它,还必须考虑它所属的复杂子系统。虽然在过去,许多开发人员会编写特定于应用程序的代码来支持单个应用程序的容错,但在重新启动复杂子系统的许多相互连接的应用程序时,这种策略不再可行。该项目将支持透明检查点重启的插件架构。透明意味着软件开发人员不需要编写任何特定于应用程序的代码。插件架构意味着每个软件开发人员只需编写一次必要的插件。每个插件负责为一个特定组件恢复任何中断的会话。在更高的层次上,检查点重新启动系统采用一组在复杂子系统的所有应用程序上运行的自主插件,而不需要任何特定于应用程序的代码。插件架构是一种更通用的称为流程虚拟化的方法的一部分,在这种方法中,流程外部的所有子系统都被虚拟化。它将建立在DMTCP检查点重新启动系统之上。流程虚拟化的一个简单示例是id的虚拟化。插件维护一个虚拟化表,并安排进程的应用程序代码只看到虚拟id,而外部世界看到真实id。使用这个实id的任何系统调用和库调用都被扩展为在实id和虚id之间进行转换。在重新启动时,实际id被更新为最新的值,进程内存保持不变,因为它只包含虚拟id。其他使用进程虚拟化的技术包括影子设备驱动程序、记录重放日志和协议虚拟化。该研究的一些目标包括对InfiniBand网络、可编程gpu(包括着色器)、虚拟机网络、大数据系统(如Hadoop)和移动计算平台(如Android)的透明检查点重启支持。
项目成果
期刊论文数量(1)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
CRUM: Checkpoint-Restart Support for CUDA's Unified Memory
- DOI:10.1109/cluster.2018.00047
- 发表时间:2018-08
- 期刊:
- 影响因子:0
- 作者:Rohan Garg;Apoorve Mohan;Michael B. Sullivan;G. Cooperman
- 通讯作者:Rohan Garg;Apoorve Mohan;Michael B. Sullivan;G. Cooperman
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Gene Cooperman其他文献
Implementation-Oblivious Transparent Checkpoint-Restart for MPI
MPI 的实施-不经意的透明检查点-重启
- DOI:
10.1145/3624062.3624255 - 发表时间:
2023 - 期刊:
- 影响因子:0
- 作者:
Yao Xu;Leonid Belyaev;Twinkle Jain;Derek Schafer;A. Skjellum;Gene Cooperman - 通讯作者:
Gene Cooperman
Gene Cooperman的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Gene Cooperman', 18)}}的其他基金
NSCI: SI2-SSE: An Extensible Model to Support Scalable Checkpoint-Restart for DMTCP Across Multiple Disciplines
NSCI:SI2-SSE:支持跨多个学科的 DMTCP 可扩展检查点重启的可扩展模型
- 批准号:
1740218 - 财政年份:2018
- 资助金额:
$ 49.92万 - 项目类别:
Standard Grant
DMTCP: Checkpoint-Restart on the Desktop
DMTCP:检查点-在桌面上重新启动
- 批准号:
0960978 - 财政年份:2010
- 资助金额:
$ 49.92万 - 项目类别:
Standard Grant
AF:Small: Computation in Very Large Groups
AF:Small:非常大的组中的计算
- 批准号:
0916133 - 财政年份:2009
- 资助金额:
$ 49.92万 - 项目类别:
Standard Grant
MRI: Enabling Research on Terabyte-Scale Datasets
MRI:支持 TB 级数据集的研究
- 批准号:
0619616 - 财政年份:2006
- 资助金额:
$ 49.92万 - 项目类别:
Standard Grant
Scalable Parallel Symbolic Computation for Irregular Problems
不规则问题的可扩展并行符号计算
- 批准号:
0204113 - 财政年份:2002
- 资助金额:
$ 49.92万 - 项目类别:
Continuing Grant
Parallel Infrastructure for Recognition of Non-Local Patterns from Particle Detectors
用于从粒子探测器识别非局部模式的并行基础设施
- 批准号:
9872114 - 财政年份:1999
- 资助金额:
$ 49.92万 - 项目类别:
Standard Grant
Connections Among Applied Computational Group Theory, Matrix Representations, and Parallel Computations
应用计算群理论、矩阵表示和并行计算之间的联系
- 批准号:
9732330 - 财政年份:1998
- 资助金额:
$ 49.92万 - 项目类别:
Standard Grant
MRI: A High-Performance, Low-Cost Testbed for Network-based Research
MRI:用于基于网络的研究的高性能、低成本测试平台
- 批准号:
9871022 - 财政年份:1998
- 资助金额:
$ 49.92万 - 项目类别:
Standard Grant
U.S.-German Cooperative Research in Computational Algebra and High-Speed Networks
美德在计算代数和高速网络方面的合作研究
- 批准号:
9722439 - 财政年份:1997
- 资助金额:
$ 49.92万 - 项目类别:
Standard Grant
East Coast Computer Algebra Day, Northeastern University, Boston, MA, May 3, l997
东海岸计算机代数日,东北大学,马萨诸塞州波士顿,1997 年 5 月 3 日
- 批准号:
9707543 - 财政年份:1997
- 资助金额:
$ 49.92万 - 项目类别:
Standard Grant
相似国自然基金
化脓性链球菌分泌性酯酶Sse抑制LC3相关吞噬促其侵袭的机制研究
- 批准号:
- 批准年份:2022
- 资助金额:30 万元
- 项目类别:青年科学基金项目
太阳能电池Cu2ZnSn(SSe)4/CdS界面过渡层结构模拟及缺陷态消除研究
- 批准号:
- 批准年份:2022
- 资助金额:55 万元
- 项目类别:面上项目
掺杂实现Cu2ZnSn(SSe)4吸收层表层稳定弱n型特性的第一性原理研究
- 批准号:12004100
- 批准年份:2020
- 资助金额:24.0 万元
- 项目类别:青年科学基金项目
基于SSE的航空信息系统信息安全保障评价指标体系的研究
- 批准号:60776808
- 批准年份:2007
- 资助金额:19.0 万元
- 项目类别:联合基金项目
相似海外基金
異常検知手法と大気ノイズ補正を併用したInSAR時系列による未知のSSE検出手法の確立
利用异常检测方法和大气噪声校正建立利用InSAR时间序列的未知SSE检测方法
- 批准号:
24K07168 - 财政年份:2024
- 资助金额:
$ 49.92万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
A study on vibration theory for defect detection by acoustic excitation using SSE analysis
基于SSE分析的声激励缺陷检测振动理论研究
- 批准号:
23K03995 - 财政年份:2023
- 资助金额:
$ 49.92万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Study on defect detection by spatial spectral entropy (SSE) and healthy part evaluation for noncontact acoustic inspection
非接触声学检测中空间谱熵(SSE)缺陷检测和健康部位评估研究
- 批准号:
19K04414 - 财政年份:2019
- 资助金额:
$ 49.92万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Numerical simulations of earthquake and SSE triggering by dynamic stress changes
动态应力变化引发地震和SSE的数值模拟
- 批准号:
18K03775 - 财政年份:2018
- 资助金额:
$ 49.92万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
NSCI: SI2-SSE: An Extensible Model to Support Scalable Checkpoint-Restart for DMTCP Across Multiple Disciplines
NSCI:SI2-SSE:支持跨多个学科的 DMTCP 可扩展检查点重启的可扩展模型
- 批准号:
1740218 - 财政年份:2018
- 资助金额:
$ 49.92万 - 项目类别:
Standard Grant
SI2-SSE: GenApp - A Transformative Generalized Application Cyberinfrastructure
SI2-SSE:GenApp - 变革性通用应用程序网络基础设施
- 批准号:
1912444 - 财政年份:2018
- 资助金额:
$ 49.92万 - 项目类别:
Standard Grant
SI2-SSE: A parallel computing framework for large-scale real-space and real-time TDDFT excited-states calculations
SI2-SSE:大规模实空间和实时 TDDFT 激发态计算的并行计算框架
- 批准号:
1739423 - 财政年份:2018
- 资助金额:
$ 49.92万 - 项目类别:
Standard Grant
Collaborative Research: SI2-SSE: WRENCH: A Simulation Workbench for Scientific Worflow Users, Developers, and Researchers
协作研究:SI2-SSE:WRENCH:面向科学 Worflow 用户、开发人员和研究人员的模拟工作台
- 批准号:
1642369 - 财政年份:2017
- 资助金额:
$ 49.92万 - 项目类别:
Standard Grant
SI2-SSE: Entangled Quantum Dynamics in Closed and Open Systems, an Open Source Software Package for Quantum Simulator Development and Exploration of Synthetic Quantum Matter
SI2-SSE:封闭和开放系统中的纠缠量子动力学,用于量子模拟器开发和合成量子物质探索的开源软件包
- 批准号:
1740130 - 财政年份:2017
- 资助金额:
$ 49.92万 - 项目类别:
Standard Grant
SI2-SSE: Highly Efficient and Scalable Software for Coarse-Grained Molecular Dynamics
SI2-SSE:高效且可扩展的粗粒度分子动力学软件
- 批准号:
1740211 - 财政年份:2017
- 资助金额:
$ 49.92万 - 项目类别:
Standard Grant