SHF: Small: Enabling and Analyzing Accuracy-aware Reliable GPU Computing

SHF:小型:启用和分析精度感知的可靠 GPU 计算

基本信息

  • 批准号:
    1717532
  • 负责人:
  • 金额:
    $ 45万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2017
  • 资助国家:
    美国
  • 起止时间:
    2017-08-01 至 2021-07-31
  • 项目状态:
    已结题

项目摘要

Graphics Processing Units (GPUs) are becoming the default choice for general-purpose hardware acceleration because of their ability to enable orders of magnitude faster and energy-efficient execution for large-scale high-performance computing applications. Since the majority of such applications executing on large-scale HPC systems are long-running, it is very important that they cope with a variety of hardware- and software-based faults. Many prior works have shown that real HPC systems are vulnerable to soft errors. An absence of essential protection and checkpointing mechanisms can lead to lower scientific productivity, operational efficiency, and even monetary loss. However, these protection mechanisms (e.g., error correction codes) are themselves not free -- they incur very high performance, energy, and area costs. This project takes a holistic approach to explore the avenues to reduce these protection overheads by taking advantage of the fact that all errors do not lead to an unacceptable loss in the accuracy of application output. Prior results show that GPGPU applications are amenable to such accuracy-aware optimizations. In order to enable these optimizations, this project will address three major research questions: a) What hardware/software support and tools are necessary to determine which instructions are not vulnerable to soft errors, b) Based on this analysis, which hardware component(s) need not be protected and for how long, while not sacrificing application quality beyond the user's quality requirements, and c) What optimizations in terms of resource management and scheduling are necessary to make low-overhead but reliable computation more effective and efficient. These questions will be explored via a variety of GPGPU applications emerging from the areas of high-performance computing (HPC), big-data analytics, machine learning, and graphics. If successful, this project will generate several novel research insights that will play an important role in enabling low-cost reliable GPU computing. The results of this project will be integrated into the existing and new undergraduate and graduate courses on computer architecture and reliability, which will facilitate in training students, including women and students from diverse backgrounds and minority groups.
图形处理单元(GPU)正成为通用硬件加速的默认选择,因为它们能够为大规模高性能计算应用程序提供数量级的更快和节能的执行。由于在大规模HPC系统上执行的大多数此类应用程序都是长时间运行的,因此它们科普各种基于硬件和软件的故障非常重要。许多先前的工作已经表明,真实的HPC系统容易受到软错误的影响。缺乏必要的保护和检查机制可能会导致科学生产力、运营效率下降,甚至造成金钱损失。然而,这些保护机制(例如,纠错码)本身并不是免费的--它们会导致非常高的性能、能量和面积成本。本项目采用一种整体方法,通过利用所有错误不会导致应用程序输出准确性方面不可接受的损失这一事实,探索减少这些保护开销的途径。先前的结果表明,GPGPU应用程序是服从这样的精度感知优化。为了实现这些优化,该项目将解决三个主要的研究问题:a)需要什么硬件/软件支持和工具来确定哪些指令不容易受到软错误的影响,B)基于该分析,哪些硬件组件不需要被保护以及保护多长时间,同时不牺牲超出用户质量要求的应用质量,以及c)在资源管理和调度方面的哪些优化是必要的,以使低开销但可靠的计算更有效和高效。这些问题将通过高性能计算(HPC)、大数据分析、机器学习和图形领域出现的各种GPGPU应用程序来探索。如果成功,该项目将产生一些新的研究见解,这些见解将在实现低成本可靠的GPU计算方面发挥重要作用。该项目的成果将纳入现有的和新的关于计算机结构和可靠性的本科生和研究生课程,这将有助于培训学生,包括妇女和来自不同背景和少数群体的学生。

项目成果

期刊论文数量(10)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
RCoal: Mitigating GPU Timing Attack via Subwarp-Based Randomized Coalescing Techniques
RCoal:通过基于 Subwarp 的随机合并技术减轻 GPU 计时攻击
SSD failures in the field: symptoms, causes, and prediction models
Characterizing Accuracy-Aware Resilience of GPGPU Applications
表征 GPGPU 应用程序的精度感知弹性
  • DOI:
    10.1109/ccgrid49817.2020.00-82
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Nie, Bin;Jog, Adwait;Smirni, Evgenia
  • 通讯作者:
    Smirni, Evgenia
Enabling Software Resilience in GPGPU Applications via Partial Thread Protection
通过部分线程保护在 GPGPU 应用程序中实现软件弹性
Fault Site Pruning for Practical Reliability Analysis of GPGPU Applications
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Adwait Jog其他文献

Exploiting Core Criticality for Enhanced GPU Performance
利用核心关键性来增强 GPU 性能
A case for core-assisted bottleneck acceleration in GPUs
GPU 中核心辅助瓶颈加速的案例
  • DOI:
  • 发表时间:
    2015
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Nandita Vijaykumar;Gennady Pekhimenko;Adwait Jog;A. Bhowmick;Rachata Ausavarungnirun;Chita R. Das;Mahmut Kandemir;T. Mowry;O. Mutlu
  • 通讯作者:
    O. Mutlu
Accelerating DNN Architecture Search at Scale Using Selective Weight Transfer
使用选择性权重转移加速大规模 DNN 架构搜索

Adwait Jog的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Adwait Jog', 18)}}的其他基金

Collaborative Research: SHF: Medium: Enabling GPU Performance Simulation for Large-Scale Workloads with Lightweight Simulation Methods
合作研究:SHF:中:通过轻量级仿真方法实现大规模工作负载的 GPU 性能仿真
  • 批准号:
    2402805
  • 财政年份:
    2024
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
CAREER: Addressing Scalability Challenges in Designing Next-generation GPU-Based Heterogeneous Architectures
职业:解决设计下一代基于 GPU 的异构架构时的可扩展性挑战
  • 批准号:
    2316694
  • 财政年份:
    2023
  • 资助金额:
    $ 45万
  • 项目类别:
    Continuing Grant
CAREER: Addressing Scalability Challenges in Designing Next-generation GPU-Based Heterogeneous Architectures
职业:解决设计下一代基于 GPU 的异构架构时的可扩展性挑战
  • 批准号:
    1750667
  • 财政年份:
    2018
  • 资助金额:
    $ 45万
  • 项目类别:
    Continuing Grant
CRII: SHF: Design and Analysis of Processing-Near-Memory Enabled GPU Architecture
CRII:SHF:支持近内存处理的 GPU 架构的设计和分析
  • 批准号:
    1657336
  • 财政年份:
    2017
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant

相似国自然基金

昼夜节律性small RNA在血斑形成时间推断中的法医学应用研究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
tRNA-derived small RNA上调YBX1/CCL5通路参与硼替佐米诱导慢性疼痛的机制研究
  • 批准号:
    n/a
  • 批准年份:
    2022
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
Small RNA调控I-F型CRISPR-Cas适应性免疫性的应答及分子机制
  • 批准号:
    32000033
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
Small RNAs调控解淀粉芽胞杆菌FZB42生防功能的机制研究
  • 批准号:
    31972324
  • 批准年份:
    2019
  • 资助金额:
    58.0 万元
  • 项目类别:
    面上项目
变异链球菌small RNAs连接LuxS密度感应与生物膜形成的机制研究
  • 批准号:
    81900988
  • 批准年份:
    2019
  • 资助金额:
    21.0 万元
  • 项目类别:
    青年科学基金项目
基于small RNA 测序技术解析鸽分泌鸽乳的分子机制
  • 批准号:
    31802058
  • 批准年份:
    2018
  • 资助金额:
    26.0 万元
  • 项目类别:
    青年科学基金项目
肠道细菌关键small RNAs在克罗恩病发生发展中的功能和作用机制
  • 批准号:
    31870821
  • 批准年份:
    2018
  • 资助金额:
    56.0 万元
  • 项目类别:
    面上项目
Small RNA介导的DNA甲基化调控的水稻草矮病毒致病机制
  • 批准号:
    31772128
  • 批准年份:
    2017
  • 资助金额:
    60.0 万元
  • 项目类别:
    面上项目
基于small RNA-seq的针灸治疗桥本甲状腺炎的免疫调控机制研究
  • 批准号:
    81704176
  • 批准年份:
    2017
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
水稻OsSGS3与OsHEN1调控small RNAs合成及其对抗病性的调节
  • 批准号:
    91640114
  • 批准年份:
    2016
  • 资助金额:
    85.0 万元
  • 项目类别:
    重大研究计划

相似海外基金

Collaborative Research: SHF: Small: Enabling Efficient 3D Perception: An Architecture-Algorithm Co-Design Approach
协作研究:SHF:小型:实现高效的 3D 感知:架构-算法协同设计方法
  • 批准号:
    2334624
  • 财政年份:
    2023
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
Collaborative Research: SHF: Small: Architecture Innovations for Enabling Simultaneous Translation at the Edge
合作研究:SHF:小型:支持边缘同步翻译的架构创新
  • 批准号:
    2223484
  • 财政年份:
    2022
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
Collaborative Research: SHF: Small: Enabling Caches and GPUs for Energy Harvesting Systems
合作研究:SHF:小型:为能量收集系统启用缓存和 GPU
  • 批准号:
    2153749
  • 财政年份:
    2022
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
Collaborative Research: SHF: Small: Architecture Innovations for Enabling Simultaneous Translation at the Edge
合作研究:SHF:小型:支持边缘同步翻译的架构创新
  • 批准号:
    2223483
  • 财政年份:
    2022
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
Collaborative Research: SHF: Small: Enabling Caches and GPUs for Energy Harvesting Systems
合作研究:SHF:小型:为能量收集系统启用缓存和 GPU
  • 批准号:
    2153748
  • 财政年份:
    2022
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
Collaborative Research: SHF: Small: Enabling Caches and GPUs for Energy Harvesting Systems
合作研究:SHF:小型:为能量收集系统启用缓存和 GPU
  • 批准号:
    2153747
  • 财政年份:
    2022
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
Collaborative Research: SHF: Small: Software Hardware Architecture Co-Design for Enabling True Virtual Reality on Mobile Devices
合作研究:SHF:小型:软件硬件架构协同设计,在移动设备上实现真正的虚拟现实
  • 批准号:
    2215042
  • 财政年份:
    2022
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
Collaborative Research: SHF: Small: Software Hardware Architecture Co-Design for Enabling True Virtual Reality on Mobile Devices
合作研究:SHF:小型:软件硬件架构协同设计,在移动设备上实现真正的虚拟现实
  • 批准号:
    2215043
  • 财政年份:
    2022
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
Collaborative Research: SHF: Small: Enabling Efficient 3D Perception: An Architecture-Algorithm Co-Design Approach
协作研究:SHF:小型:实现高效的 3D 感知:架构-算法协同设计方法
  • 批准号:
    2126643
  • 财政年份:
    2021
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
Collaborative Research: SHF: Small: Enabling Efficient 3D Perception: An Architecture-Algorithm Co-Design Approach
协作研究:SHF:小型:实现高效的 3D 感知:架构-算法协同设计方法
  • 批准号:
    2126642
  • 财政年份:
    2021
  • 资助金额:
    $ 45万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了