基于NIC的Exascale级计算机聚合通信卸载关键技术研究
结题报告
批准号:
61202124
项目类别:
青年科学基金项目
资助金额:
24.0 万元
负责人:
王绍刚
学科分类:
F0204.计算机系统结构与硬件技术
结题年份:
2015
批准年份:
2012
项目状态:
已结题
项目参与者:
谢旻、吴丹、曹继军、所光、刘福东、李威、邓秋严
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
客服二维码
微信扫码咨询
中文摘要
基于网络接口控制器(NIC)的聚合通信卸载技术是解决并行应用程序通信瓶颈的重要途径,在Exascale级计算机系统背景下,下一代基于NIC的聚合通信卸载技术面临着众核处理器、系统规模爆炸性增长、互联网络复杂等方面的挑战,迫切需要开展NIC新体系结构的研究。本课题拟提出新的聚合通信卸载软硬件构架,通过软件生成算法框架,硬件提供可编程原语支持的技术途径,降低硬件实现的复杂度,并解决有效支持众核处理器、上十万个节点的可扩展性需求等问题。课题还拟在新的架构下,研究支持互联网拓扑、非阻塞、近邻模式等聚合通信新特性的关键技术。本课题进行的研究着眼于突破软硬件接口、算法框架提取、硬件原语设计、NIC体系结构等一系列关键问题,将为下一代高性能计算机NIC的设计实现提供有效的理论和技术支持。
英文摘要
NIC (Network Interface Controller) based Collective communicationi offload technology is an important way to alleviate the communication bottleneck for current parallelm applications. For the next generation exascale parallel computer system, NIC based collective communicatioin offload technology is facing new challenges, such as the new many-core processor architecture, explosive grow of system size and large scale system network, etc. It is required to take the research on new NIC architecture to efficiently offload collective communication on next generation exascale parallel systems. This project proposes a new software-hardware architecture to solve these challenges. The new architecture relies on the software to generate the algorithm frame, which is runned on the programmable simple hardware unit. The new NIC based collective communication offload architecture greatly reduce the hardware design complexity and resources overhead, meanwhile, it can efficiently support many-core processor architecture, and it scalability can easily support system size over 100000 nodes. This project is plan to take the research on complex network topology based collective communication offload engine, non-block communication and sparse collective communication etc under the new architecture.Our research target is to make breakthrough for next next generation NIC architecture on the problem of hardware-software interface, collective algorithm framework generation, hardware logic design, NIC architecture etc. The research is significant on theory and desing of NIC architecture for exascale computer system.
在Exascale级计算机系统背景下,下一代基于NIC的聚合通信卸载技术面临着众核处理器、系统规模爆炸性增长、互联网络复杂等方面的挑战,迫切需要开展NIC新体系结构的研究。本课题拟提出新的聚合通信卸载软硬件构架,通过软件生成算法框架,硬件提供可编程原语支持的技术途径,降低硬件实现的复杂度,并解决有效支持众核处理器、上十万个节点的可扩展性需求等问题。课题还拟在新的架构下,研究支持互联网拓扑、非阻塞、近邻模式等聚合通信新特性的关键技术。本课题进行的研究着眼于突破软硬件接口、算法框架提取、硬件原语设计、NIC体系结构等一系列关键问题,将为下一代高性能计算机NIC的设计实现提供有效的理论和技术支持。..本课题的基本思想正是要设计一种新的基于NIC的聚合通信卸载架构,依据软硬件协同的思路解决下一代并行计算机系统所面临的规模爆炸问题。通过定义新的软硬件接口来描述聚合通信的算法执行框架,实现合理的软硬件分工。软件根据硬件提供的原语将聚合通信的算法框架描述出来,并提交给硬件,但不参与实际的通信和同步。硬件提供基本的原语支持,可实现按照软件计算好的算法框架执行聚合通信算法,只完成通信和同步的操作。硬件基本原语单元的设计实现简单,能够在NIC中实现多个,以此实现与众核处理器核数匹配的聚合通信卸载能力,解决单NIC对MPI多线程聚合通信支持不足的问题。..此外,本课题还进行了大数据量的远程内存访问(RDMA)传输的研究,针对系统的容错性设计面临着很大的挑战,互连网络具有链路不可靠、自适应路由等特点,如何面向不可靠网络实现可靠的端到端RDMA传输是并行系统体系结构设计的一大难题。提出一种面向不可靠网络下的快速RDMA传输方法,方法能够在节点控制器芯片上高效实现,对上层驱动软件和应用提供可靠的端到端RDMA传输服务。..通过3年的课题研究,课题收获了较好的研究成果。本课题主要提出了若干在E计算环境下使用的聚合通信卸载方案,通过课题的多方合作研究,实现了在可靠实验平台上的验证。在天河并行计算机的验证环境中,有效验证了方案的可行性。在学术研究成果方面,课题获得了丰硕的成果,共发表了高水平学术论文7篇(均为EI索引),并在ISC等国际高水平学术会议上进行了成果展示;申请了一项国家发明专利,目前已经获得正式授权。此外,项目负责人获得军队科技进步奖一项。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
DOI:--
发表时间:2013
期刊:湖南大学学报(自然科学版)
影响因子:--
作者:王绍刚
通讯作者:王绍刚
DOI:--
发表时间:--
期刊:湖南大学学报(自然科学版)
影响因子:--
作者:徐炜遐;吴丹;庞征斌;夏军
通讯作者:夏军
DOI:--
发表时间:2013
期刊:国防科大学报
影响因子:--
作者:王绍刚
通讯作者:王绍刚
国内基金
海外基金