CSR: Small: Diagnosing Performance and Correctness Errors in Parallel Applications at Large Scales

CSR:小:诊断大规模并行应用程序中的性能和正确性错误

基本信息

  • 批准号:
    1527262
  • 负责人:
  • 金额:
    $ 45万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2015
  • 资助国家:
    美国
  • 起止时间:
    2015-10-01 至 2019-09-30
  • 项目状态:
    已结题

项目摘要

Dependability has become a critically necessary property for many of the computer systems that surround us or work behind the scenes supporting our personal and professional lives. We have made great strides in our ability to design, implement, and operate dependable systems. However, dependability solutions are increasingly being stressed due to rapid increases in the scale of the computing systems. Computer applications used in areas such as computational genomics, data mining, and prediction of natural phenomena tackle extremely complex problems which generate vast amounts of sensory data; thus, the inputs to these applications is tremendous. Computing is rapidly becoming more dependent on parallelism - where many calculations are carried out simultaneously. This means increasing core counts for servers, more servers and racks for data centers, and a dramatic increase in the number of computing cores that these applications must run. The traditional dependability solutions just are not working. When an application does not complete or completes with incorrect results, the developer must identify the offending parallel task and then the portion of the code in that task that caused the error. This is hard enough for parallel applications at small to moderate sizes. These issues get exacerbated at large scales. Dealing with tens of processes is within reach of mere mortal developers, a few hundreds of processes is within reach of heroic developers, but on machines of petascale and beyond, this requires sophisticated support.This project will create design principles for debugging tools that can operate at large scales of data and process count and a practical instantiation of these principles in a system called LANCET. The methodology will be based on the insight that the numbers of equivalence classes of processes in an application do not grow even as the number of processes grows. Analysis will mostly deal with equivalence classes. Resilience runtime will have elements that operate on individual processes in a completely distributed manner. Where non-local knowledge is needed, the techniques will operate in a sampling mode. Finally, the project will develop solutions for data-dependent errors that have resisted convincing widely applicable solutions, i.e., errors of the kind that manifest themselves for specific input datasets or specific input parameter combinations.
可靠性已经成为许多计算机系统的关键必要属性,这些计算机系统围绕着我们或在幕后支持我们的个人和职业生活。我们在设计、实现和操作可靠系统的能力方面取得了长足的进步。然而,由于计算系统规模的快速增长,可靠性解决方案越来越受到重视。在计算基因组学、数据挖掘和自然现象预测等领域中使用的计算机应用程序解决了产生大量传感数据的极其复杂的问题;因此,这些应用程序的输入是巨大的。 计算正在迅速变得更加依赖于并行性-其中许多计算同时进行。这意味着增加服务器的核心数量,更多的服务器和数据中心机架,以及这些应用程序必须运行的计算核心数量的急剧增加。传统的可靠性解决方案根本不起作用。当应用程序未完成或完成时产生错误结果时,开发人员必须识别有问题的并行任务,然后识别该任务中导致错误的代码部分。这对于小到中等规模的并行应用程序来说已经足够困难了。这些问题在大范围内加剧。几十个进程的处理对于普通的开发人员来说是触手可及的,几百个进程的处理对于英勇的开发人员来说也是触手可及的,但是在千万亿次甚至更大规模的机器上,这需要复杂的支持。这个项目将为调试工具创建设计原则,这些工具可以在大规模的数据和进程计数下运行,并在一个名为LANCET的系统中实际实例化这些原则。该方法将基于这样的见解,即应用程序中的进程的等价类的数量不会随着进程数量的增长而增长。 分析将主要处理等价类。Resilience运行时将包含以完全分布式的方式对各个进程进行操作的元素。在需要非当地知识的情况下,这些技术将以抽样方式运作。最后,该项目将为数据依赖性错误制定解决方案,这些错误无法令人信服地广泛适用于解决方案,即,对于特定输入数据集或特定输入参数组合表现出来的错误。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Saurabh Bagchi其他文献

Intrusion detection in voice over IP environments
  • DOI:
    10.1007/s10207-008-0071-0
  • 发表时间:
    2008-12-16
  • 期刊:
  • 影响因子:
    3.200
  • 作者:
    Yu-Sung Wu;Vinita Apte;Saurabh Bagchi;Sachin Garg;Navjot Singh
  • 通讯作者:
    Navjot Singh
Erratum to: ‘MicroRNA target prediction using thermodynamic and sequence curves’
  • DOI:
    10.1186/s12864-016-2367-1
  • 发表时间:
    2016-03-09
  • 期刊:
  • 影响因子:
    3.700
  • 作者:
    Asish Ghoshal;Raghavendran Shankar;Saurabh Bagchi;Ananth Grama;Somali Chaterji
  • 通讯作者:
    Somali Chaterji
A Survey Article on Wormhole Attack Detection and Security in Wireless Sensor Networks
关于无线传感器网络中虫洞攻击检测和安全的调查文章
  • DOI:
    10.5120/ijca2017915666
  • 发表时间:
    2017
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Gaurav Tejpal;Sonal Sharma;Khalil;Issa;Saurabh Bagchi;N. Shroff;S. Krishnamurthy
  • 通讯作者:
    S. Krishnamurthy
Reliable and Efficient Distributed Checkpointing System for Grid Environments
  • DOI:
    10.1007/s10723-014-9297-4
  • 发表时间:
    2014-05-20
  • 期刊:
  • 影响因子:
    2.900
  • 作者:
    Tanzima Zerin Islam;Saurabh Bagchi;Rudolf Eigenmann
  • 通讯作者:
    Rudolf Eigenmann

Saurabh Bagchi的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Saurabh Bagchi', 18)}}的其他基金

NSF Workshop on State-of-the-Art and Challenges in Resilience
美国国家科学基金会关于复原力的最新技术和挑战研讨会
  • 批准号:
    2140139
  • 财政年份:
    2021
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
CCRI: ENS: Collaborative Research: Open Computer System Usage Repository and Analytics Engine
CCRI:ENS:协作研究:开放计算机系统使用存储库和分析引擎
  • 批准号:
    2016704
  • 财政年份:
    2020
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
NSF Workshop on State-of-the-Art and Challenges in Resilience
美国国家科学基金会关于复原力的最新技术和挑战研讨会
  • 批准号:
    1845192
  • 财政年份:
    2018
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
CI-NEW: Collaborative Research: Computer System Failure Data Repository to Enable Data-Driven Dependability
CI-NEW:协作研究:计算机系统故障数据存储库以实现数据驱动的可靠性
  • 批准号:
    1513197
  • 财政年份:
    2015
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
CI-P: Computer System Failure Data Repository to Enable Data-Driven Dependability Research
CI-P:计算机系统故障数据存储库,支持数据驱动的可靠性研究
  • 批准号:
    1405906
  • 财政年份:
    2014
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
NeTS: Medium: Collaborative Research: Tango: Performance and Fault Management in Cellular Networks through Device-Network Cooperation
NeTS:媒介:协作研究:Tango:通过设备网络协作进行蜂窝网络的性能和故障管理
  • 批准号:
    1409506
  • 财政年份:
    2014
  • 资助金额:
    $ 45万
  • 项目类别:
    Continuing Grant
Travel Grants for Attending the 29th IEEE Symposium on Reliable Distributed Systems (SRDS)
参加第 29 届 IEEE 可靠分布式系统 (SRDS) 研讨会的旅费补助
  • 批准号:
    1047647
  • 财政年份:
    2010
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
CSR: Small: Monitoring for Error Detection in Today's High Throughput Applications
CSR:小:监控当今高吞吐量应用程序中的错误检测
  • 批准号:
    0916337
  • 财政年份:
    2009
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
NeTS-NOSS: Robust Sensor Network Architecture through Neighborhood Monitoring and Isolation
NeTS-NOSS:通过邻域监控和隔离实现稳健的传感器网络架构
  • 批准号:
    0626830
  • 财政年份:
    2006
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
Sensors: Smart RF Antennas for Reliable and Real-Time Sensor Networks
传感器:用于可靠、实时传感器网络的智能射频天线
  • 批准号:
    0330016
  • 财政年份:
    2003
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant

相似国自然基金

昼夜节律性small RNA在血斑形成时间推断中的法医学应用研究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
tRNA-derived small RNA上调YBX1/CCL5通路参与硼替佐米诱导慢性疼痛的机制研究
  • 批准号:
    n/a
  • 批准年份:
    2022
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
Small RNA调控I-F型CRISPR-Cas适应性免疫性的应答及分子机制
  • 批准号:
    32000033
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
Small RNAs调控解淀粉芽胞杆菌FZB42生防功能的机制研究
  • 批准号:
    31972324
  • 批准年份:
    2019
  • 资助金额:
    58.0 万元
  • 项目类别:
    面上项目
变异链球菌small RNAs连接LuxS密度感应与生物膜形成的机制研究
  • 批准号:
    81900988
  • 批准年份:
    2019
  • 资助金额:
    21.0 万元
  • 项目类别:
    青年科学基金项目
肠道细菌关键small RNAs在克罗恩病发生发展中的功能和作用机制
  • 批准号:
    31870821
  • 批准年份:
    2018
  • 资助金额:
    56.0 万元
  • 项目类别:
    面上项目
基于small RNA 测序技术解析鸽分泌鸽乳的分子机制
  • 批准号:
    31802058
  • 批准年份:
    2018
  • 资助金额:
    26.0 万元
  • 项目类别:
    青年科学基金项目
Small RNA介导的DNA甲基化调控的水稻草矮病毒致病机制
  • 批准号:
    31772128
  • 批准年份:
    2017
  • 资助金额:
    60.0 万元
  • 项目类别:
    面上项目
基于small RNA-seq的针灸治疗桥本甲状腺炎的免疫调控机制研究
  • 批准号:
    81704176
  • 批准年份:
    2017
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
水稻OsSGS3与OsHEN1调控small RNAs合成及其对抗病性的调节
  • 批准号:
    91640114
  • 批准年份:
    2016
  • 资助金额:
    85.0 万元
  • 项目类别:
    重大研究计划

相似海外基金

Powering Small Craft with a Novel Ammonia Engine
用新型氨发动机为小型船只提供动力
  • 批准号:
    10099896
  • 财政年份:
    2024
  • 资助金额:
    $ 45万
  • 项目类别:
    Collaborative R&D
"Small performances": investigating the typographic punches of John Baskerville (1707-75) through heritage science and practice-based research
“小型表演”:通过遗产科学和基于实践的研究调查约翰·巴斯克维尔(1707-75)的印刷拳头
  • 批准号:
    AH/X011747/1
  • 财政年份:
    2024
  • 资助金额:
    $ 45万
  • 项目类别:
    Research Grant
Fragment to small molecule hit discovery targeting Mycobacterium tuberculosis FtsZ
针对结核分枝杆菌 FtsZ 的小分子片段发现
  • 批准号:
    MR/Z503757/1
  • 财政年份:
    2024
  • 资助金额:
    $ 45万
  • 项目类别:
    Research Grant
Bacteriophage control of host cell DNA transactions by small ORF proteins
噬菌体通过小 ORF 蛋白控制宿主细胞 DNA 交易
  • 批准号:
    BB/Y004426/1
  • 财政年份:
    2024
  • 资助金额:
    $ 45万
  • 项目类别:
    Research Grant
Windows for the Small-Sized Telescope (SST) Cameras of the Cherenkov Telescope Array (CTA)
切伦科夫望远镜阵列 (CTA) 小型望远镜 (SST) 相机的窗口
  • 批准号:
    ST/Z000017/1
  • 财政年份:
    2024
  • 资助金额:
    $ 45万
  • 项目类别:
    Research Grant
CSR: Small: Leveraging Physical Side-Channels for Good
CSR:小:利用物理侧通道做好事
  • 批准号:
    2312089
  • 财政年份:
    2024
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
CSR: Small: Multi-FPGA System for Real-time Fraud Detection with Large-scale Dynamic Graphs
CSR:小型:利用大规模动态图进行实时欺诈检测的多 FPGA 系统
  • 批准号:
    2317251
  • 财政年份:
    2024
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
AF: Small: Problems in Algorithmic Game Theory for Online Markets
AF:小:在线市场的算法博弈论问题
  • 批准号:
    2332922
  • 财政年份:
    2024
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
Collaborative Research: FET: Small: Algorithmic Self-Assembly with Crisscross Slats
合作研究:FET:小型:十字交叉板条的算法自组装
  • 批准号:
    2329908
  • 财政年份:
    2024
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
NeTS: Small: ML-Driven Online Traffic Analysis at Multi-Terabit Line Rates
NeTS:小型:ML 驱动的多太比特线路速率在线流量分析
  • 批准号:
    2331111
  • 财政年份:
    2024
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了