面向深度学习处理器的可靠性分析与优化技术研究
结题报告
批准号:
61802143
项目类别:
青年科学基金项目
资助金额:
26.0 万元
负责人:
谭婧炜佳
依托单位:
学科分类:
F0204.计算机系统结构与硬件技术
结题年份:
2021
批准年份:
2018
项目状态:
已结题
项目参与者:
高尚、徐海啸、董飒、岳恒山、李梓健、汤钫宇
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
客服二维码
微信扫码咨询
中文摘要
深度学习处理器正在崛起成为深度学习的重要处理平台,然而目前其设计尚缺乏对可靠性的保障,这也限制了深度学习的更广泛应用。随着制造工艺的微型化,硬件执行时发生错误的概率呈指数级增长,这成为了深度学习处理器可靠性的提升所面临的重要挑战。降低硬件执行错误的发生率,并实现错误的检测与恢复,是保障深度学习处理器可靠性的关键。本课题拟从分析和优化两个方面对深度学习处理器可靠性进行研究,兼顾性能及功耗,达到以低代价的方式提高深度学习处理器可靠性的研究目标。课题主要内容包括:建立深度学习处理器体系结构可靠性量化模型并分析可靠性特征;分析深度学习应用算法并提取其可靠性需求;研究低开销的硬件保护方法以提高深度学习处理器可靠性;基于高能效的错误检测及错误恢复设计优化深度学习处理器的可靠性。这一研究有助于提高深度学习处理器在自动驾驶、手术机器人等新兴领域的应用前景。
英文摘要
Recently, deep learning processors emerge as major computing platforms for deep learning applications. However, inadequate reliability features of current deep learning processors prevent their prevalence in self-driving cars, surgery robots, and so on. Unfortunately, as integrated circuit manufacturing process scales down, hardware error rate increases exponentially, which becomes a great challenge for reliable deep learning processing. Besides reducing error rate, error detection and recovery are also the key to improve the reliability of deep learning processors. In this proposal, we focus on the analysis and optimization regarding to the reliability of deep learning processors. The goal is to improve the reliability of deep learning processors without significant performance and energy loss. We model and analyze the reliability features of deep learning processor architectures in a quantitative approach, characterize the reliability requirements of deep learning algorithms, improve the reliability of deep learning processors via hardware protections, and optimize the reliability of deep learning processors through energy-efficient error detection and recovery mechanisms. This work will benefit the application of deep learning processors in emerging fields such as self-driving cars and surgery robots.
近年来,深度学习技术发展迅速,目前能够达到超越人类的准确率,并被广泛应用于图像识别、目标检测、语音识别、自然语言翻译、以及文本分类等领域。作为常用的深度学习处理器,卷积神经网络加速器及GPU被广泛应用于深度学习算法程序的处理。随着制造工艺的微型化,硬件执行时发生错误的概率呈指数级增长,这成为了深度学习应用正确执行所面临的重要挑战。分析并优化深度学习处理器的可靠性,对提高深度学习处理器在自动驾驶、手术机器人等新兴领域的应用前景具有重要意义。本课题针对卷积神经网络加速器和GPU两种处理器类型,从硬件变异性和软错误等影响可靠性的因素进行了多维度的分析,并通过优化设计实现了低开销的可靠性的提升。具体研究内容包括:1)卷积神经网络加速器的制程变异影响分析及缓解;2)卷积神经网络算法和加速器体系结构的软错误可靠性分析及提升;3)GPU程序及体系结构的软错误可靠性分析、预测及优化;4)GPU体系结构的硬件变异性影响分析及缓解;5)高能效的GPU及微型航空飞行器设计。研究内容共发表论文14篇,申请发明专利7项,授权发明专利3项;参加国际会议8次;培养博士研究生1名,硕士研究生4名。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
Eff-ECC: Protecting GPGPUs Register File with a Unified Energy-Efficient ECC Mechanism
Eff-ECC:使用统一的节能 ECC 机制保护 GPGPU 寄存器文件
DOI:--
发表时间:2020
期刊:IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems
影响因子:2.9
作者:Hengshan Yue;Xiaohui Wei;Jingweijia Tan
通讯作者:Jingweijia Tan
Energy-Efficient GPU L2 Cache Design Using Instruction-Level Data Locality Similarity
使用指令级数据局部性相似性的节能 GPU L2 缓存设计
DOI:10.1145/3408060
发表时间:2020
期刊:ACM Transactions on Design Automation of Electronic Systems
影响因子:1.4
作者:Jingweijia Tan;Kaige Yan;Shuaiwen Leon Song;Xin Fu
通讯作者:Xin Fu
Towards Fine-Grained Online Adaptive Approximation Control for Dense SLAM on Embedded GPUs
面向嵌入式 GPU 上的密集 SLAM 的细粒度在线自适应逼近控制
DOI:10.1145/3486612
发表时间:2022
期刊:ACM Transactions on Design Automation of Electronic Systems
影响因子:1.4
作者:Tiancong Bu;Kaige Yan;Jingweijia Tan
通讯作者:Jingweijia Tan
G-SEAP: Analyzing and characterizing soft-error aware approximation in GPGPUs
G-SEAP:分析和表征 GPGPU 中的软错误感知近似
DOI:10.1016/j.future.2020.03.040
发表时间:2020
期刊:Future Generation Computer Systems-The International Journal of eScience
影响因子:7.5
作者:Wei Xiaohui;Yue Hengshan;Gao Shang;Li Lina;Zhang Ruyu;Tan Jingweijia
通讯作者:Tan Jingweijia
Improving energy efficiency of mobile devices by characterizing and exploring user behaviors
通过表征和探索用户行为来提高移动设备的能源效率
DOI:10.1016/j.sysarc.2019.07.004
发表时间:2019-09
期刊:Journal of Systems Architecture
影响因子:4.5
作者:Yan Kaige;Tan Jingweijia;Fu Xin
通讯作者:Fu Xin
超大规模集成GPU系统的可靠性分析及优化研究
  • 批准号:
    62372207
  • 项目类别:
    面上项目
  • 资助金额:
    50万元
  • 批准年份:
    2023
  • 负责人:
    谭婧炜佳
  • 依托单位:
国内基金
海外基金