课题基金基金详情
基于线程调度的通用图形处理器性能优化方法研究
结题报告
批准号:
61662002
项目类别:
地区科学基金项目
资助金额:
39.0 万元
负责人:
张军
依托单位:
学科分类:
F0204.计算机系统结构与硬件技术
结题年份:
2020
批准年份:
2016
项目状态:
已结题
项目参与者:
谭海、高永平、王强、沈凡凡、汪吕蒙、魏振华、刘琳、黄燕、吴建东
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
客服二维码
微信扫码咨询
中文摘要
通用图形处理器(GPGPU)在并行计算方面的巨大优势使其在高性能计算领域的应用日趋广泛,尤其是在面向高吞吐量的通用计算计算领域已经成为了主流的计算加速部件。然而,由于分支转移、访存离散和片上资源访问竞争等因素的存在,当GPGPU处理不规则应用程序时,其性能并未能得以充分发挥。本课题将从线程调度优化的角度出发,基于对GPGPU微体系结构的分析,构建基于线程调度的GPGPU性能优化整体框架,对分支转移、访存离散和片上资源访问竞争等三个影响GPGPU性能的主要因素进行研究,重点解决由于分支转移引起的资源利用率降低、访存离散和片上资源访问竞争导致的访存效率降低等方面的问题。
英文摘要
General purpose graphics processor(GPGPU) has an increasing application in the field of high performance computing based on its parallel computing capability, which makes it become one of the main stream computing speedup components, especially in the field of general-purpose computing feild oriented throughput. However, the performance of GPGPU fails to reach the maximum when some irregular applications run on GPGPU as there exist some factors affecting the performance of GPGPU such as branch divergence, memory divergence and on-chip resources contention, etc. We will study these factors affecting the performance of GPGPU, especially branch divergence, memory divergence and on-chip resources contention based on thread scheduling and microarchitecture of GPGPU. Moreover, we will construct the overall performance optimization framework based on thread scheduling. The performance of GPGPU will be optimized via solving the issues including the reduction of on-chip resources utilization occurred by branch divergence and the drop of memory efficiency occurred by memory divergence and on-chip resources contention.
通用图形处理器(GPGPU)是当前面向高吞吐量、高性能计算领域的主要加速部件之一,它在通用计算领域也得到了广泛的应用。然而,通用计算领域存在大量不规则计算模型和不规则访存模型,而且由于超大规模线程的并发执行,片上资源尤其是存储资源很容易出现访问竞争。这些原因均会不同程度的影响GPGPU的性能发挥。.本课题从GPGPU的微体系结构出发,通过对线程调度方法的优化,解决分支转移引起的资源利用率下降、片上资源访问竞争和访存离散导致cache访问效率下降等问题,以此来提升GPGPU的性能。另外,存储墙问题尤其是片上缓存子系统的性能问题是制约GPGPU性能的主要因素之一,课题组还针对缓存子系统优化进行了研究。.(1)课题组从GPGPU的微体系结构出发,综合考虑分支转移、片上资源访问竞争、访存离散等多个因素,构建一个完整的提升GPGPU性能的线程调度优化框架。.(2)面向分支转移,提出了一种基于两阶段同步的线程块压缩调度机制,分两个阶段来对线程块进行压缩重组,在每个阶段均对线程块的压缩重组有效性进行分析,并考虑线程块重组产生的开销和收益之间的关系,使得线程块压缩重组的有效性得到了较大的提升。.(3)面向片上资源尤其是cache资源访问竞争,提出了基于访存感知的TLP调节结合cache绕行机制。通过窗口滑动机制检测是否出现cache访问竞争,并结合cache绕行机制,提升了数据局部性,也提高了片上网络资源带宽,有效地解决了片上cache访问竞争问题。.(4)面向访存离散,提出了基于访存优先级的线程调度机制。首次真正意义上对访存的优先级进行了量化计算,并优先选择优先级最大的访存请求发射,提升了访存离散条件下的性能,也降低了片上的资源访问竞争,同时还保证了线程调度的公平性。.(5)研究了非易失性缓存子系统优化方法,提出了一种SRAM辅助新型非易失性缓存的磨损均衡方法。该方法使非易失性缓存的写操作分布更加均匀,达到了更好的磨损均衡效果,缓存的寿命得到较大幅度的提升,同时有效降低了系统功耗。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
Memory-aware TLP throttling and cache bypassing for GPUs
GPU 的内存感知 TLP 节流和缓存绕过
DOI:10.1007/s10586-017-1396-0
发表时间:2017-11
期刊:Cluster Computing
影响因子:--
作者:Jun Zhang;Yanxiang He;Fanfan Shen;Qing'an Li;Hai Tan
通讯作者:Hai Tan
Reuse locality aware cache partitioning for last-level cache
对最后一级缓存重用局部性感知缓存分区
DOI:10.1016/j.compeleceng.2019.01.020
发表时间:2019-03
期刊:Computers & Electrical Engineering
影响因子:4.3
作者:Fanfan Shen;Yanxiang He;Jun Zhang;Qingan Li;Jianhua Li;Chao Xu
通讯作者:Chao Xu
Periodic learning-based region selection for energy-efficient MLC STT-RAM cache
基于定期学习的节能 MLC STT-RAM 缓存区域选择
DOI:10.1007/s11227-019-02846-1
发表时间:2019-04
期刊:Journal of Supercomputing
影响因子:3.3
作者:Fanfan Shen;Yanxiang He;Jun Zhang;Chao Xu
通讯作者:Chao Xu
Memory Request Priority Based Warp Scheduling for GPUs
GPU 的基于内存请求优先级的 Warp 调度
DOI:--
发表时间:2018
期刊:Chinese Journal of Electronics
影响因子:1.2
作者:ZHANG Jun;HE Yanxiang;SHEN Fanfan;LI Qing'an;TAN Hai
通讯作者:TAN Hai
Statistical Behavior Guided Block Allocation in Hybrid Cache-Based Edge Computing for Cyber-Physical-Social Systems
网络-物理-社交系统的基于混合缓存的边缘计算中统计行为引导的块分配
DOI:10.1109/access.2020.2972305
发表时间:2020-01-01
期刊:IEEE ACCESS
影响因子:3.9
作者:Shen, Fanfan;Xu, Chao;Zhang, Jun
通讯作者:Zhang, Jun
多kernel环境下通用图形处理器缓存子系统性能优化研究
  • 批准号:
    62162002
  • 项目类别:
    地区科学基金项目
  • 资助金额:
    36万元
  • 批准年份:
    2021
  • 负责人:
    张军
  • 依托单位:
国内基金
海外基金