CAREER: Efficient and Scalable Large Foundational Model Training on Supercomputers for Science

职业:科学超级计算机上高效且可扩展的大型基础模型训练

基本信息

  • 批准号:
    2340011
  • 负责人:
  • 金额:
    $ 59.97万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2024
  • 资助国家:
    美国
  • 起止时间:
    2024-07-01 至 2029-06-30
  • 项目状态:
    未结题

项目摘要

Deep learning (DL) methods, especially the large foundational models, enable exciting new approaches to problems in many science and engineering disciplines, such as genomics, bioinformatics, meteorology, and natural language processing. Training foundational models at extreme scales is time-consuming, prone to low utilization with limited scalability, and human-effort demanding. This NSF CAREER project addresses the convergence, performance, and scalability gaps of large foundational model pre-training on supercomputers with innovative algorithms, systems, and interface design. In addition to the algorithm and computer system innovation, this project contributes to translational computer science by lowering the barrier of sizeable foundational model training and the time consumption of scientific deep learning, thus enabling significantly more scientific research to embrace large foundational models. The research results will be publicly available as open-source software to the broader community, with comprehensive documentation on the design and usage to help users from all domains.Technically, this NSF CAREER project has four research and educational thrusts: The first thrust focuses on new optimization techniques such as first-, second-, and mixed-order optimizers with potential approximation techniques to enhance time-to-convergence. The second thrust aims to enhance the scaling efficiency by designing novel sparsification algorithms that leverage the spatial and temporal patterns of gradients. The third thrust considers a new complex parallelism abstraction that transparently deploys large models across processors with near-optimal performance given the present capability of compute, interconnect, and I/O on a supercomputer. The fourth thrust designs educational activities, including a distributed DL system course, a DL tutorial, and a DL bootcamp targeting students and practitioners with different levels of expertise.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
深度学习(DL)方法,特别是大型基础模型,为许多科学和工程学科(如基因组学、生物信息学、气象学和自然语言处理)中的问题提供了令人兴奋的新方法。在极端规模下训练基础模型是耗时的,易于使用率低,可扩展性有限,并且需要人工努力。这个NSF CAREER项目通过创新的算法、系统和接口设计,解决了在超级计算机上进行大型基础模型预训练的收敛性、性能和可扩展性差距。除了算法和计算机系统创新之外,该项目还通过降低大规模基础模型训练的障碍和科学深度学习的时间消耗,为转化计算机科学做出了贡献,从而使更多的科学研究能够采用大型基础模型。研究结果将作为开源软件向更广泛的社区公开,并提供有关设计和使用的全面文档,以帮助来自所有领域的用户。从技术上讲,这个NSF CAREER项目有四个研究和教育重点:第一个重点是新的优化技术,如一阶、二阶和混合阶优化器,以及潜在的近似技术,以提高收敛时间。第二个推力的目的是提高缩放效率,设计新的稀疏算法,利用梯度的空间和时间模式。第三个推力考虑了一个新的复杂的并行抽象,透明地部署大型模型跨处理器与接近最佳的性能给定的计算,互连和I/O的超级计算机上的当前能力。第四个重点是设计教育活动,包括分布式DL系统课程、DL教程和针对不同专业水平的学生和从业者的DL训练营。该奖项反映了NSF的法定使命,并通过使用基金会的知识价值和更广泛的影响审查标准进行评估,被认为值得支持。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Zhao Zhang其他文献

A 1-V 5.2–5.7 GHz low noise sub-sampling phase locked loop in 0.18 μm CMOS
采用 0.18 μm CMOS 封装的 1V 5.2–5.7 GHz 低噪声子采样锁相环
Probe-Type Microforce Sensor for Mirco/Nano Experimental Mechanics
用于微/纳米实验力学的探针式微力传感器
  • DOI:
    10.4028/www.scientific.net/amr.33-37.943
  • 发表时间:
    2008-03
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Xide Li;Zhao Zhang
  • 通讯作者:
    Zhao Zhang
3D trajectory tracking control of an underactuated AUV based on adaptive neural network dynamic surface
基于自适应神经网络动态面的欠驱动AUV 3D轨迹跟踪控制
An efficient and convenient formal synthesis of Jaspine B from D-xylose.
由 D-木糖高效、便捷地正式合成 Jaspine B。
  • DOI:
    10.1016/j.carres.2012.01.013
  • 发表时间:
    2012-04
  • 期刊:
  • 影响因子:
    3.1
  • 作者:
    Zhao Zhang;Yu-Tao Zhao;Wen Qu;Hong-Min Liu
  • 通讯作者:
    Hong-Min Liu
Development of a Procedure for Prioritizing Intersection Improvement Projects Considering Safety and Operational Factors
制定考虑安全和运营因素的交叉口改善项目优先顺序的程序
  • DOI:
    10.1080/19439962.2011.614374
  • 发表时间:
    2012
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Zhenyu Wang;Zhao Zhang;J. Lu;Jianyou Zhao
  • 通讯作者:
    Jianyou Zhao

Zhao Zhang的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Zhao Zhang', 18)}}的其他基金

Collaborative Research: Frameworks: hpcGPT: Enhancing Computing Center User Support with HPC-enriched Generative AI
协作研究:框架:hpcGPT:通过 HPC 丰富的生成式 AI 增强计算中心用户支持
  • 批准号:
    2411294
  • 财政年份:
    2024
  • 资助金额:
    $ 59.97万
  • 项目类别:
    Standard Grant
Collaborative Research: CSR: Medium: Fortuna: Characterizing and Harnessing Performance Variability in Accelerator-rich Clusters
合作研究:CSR:Medium:Fortuna:表征和利用富含加速器的集群中的性能变异性
  • 批准号:
    2312689
  • 财政年份:
    2023
  • 资助金额:
    $ 59.97万
  • 项目类别:
    Continuing Grant
Collaborative Research: CSR: Medium: Fortuna: Characterizing and Harnessing Performance Variability in Accelerator-rich Clusters
合作研究:CSR:Medium:Fortuna:表征和利用富含加速器的集群中的性能变异性
  • 批准号:
    2401244
  • 财政年份:
    2023
  • 资助金额:
    $ 59.97万
  • 项目类别:
    Continuing Grant
Collaborative Research: Frameworks: Diamond: Democratizing Large Neural Network Model Training for Science
合作研究:框架:钻石:科学大型神经网络模型训练的民主化
  • 批准号:
    2311766
  • 财政年份:
    2023
  • 资助金额:
    $ 59.97万
  • 项目类别:
    Standard Grant
Collaborative Research: OAC Core: ScaDL: New Approaches to Scaling Deep Learning for Science Applications on Supercomputers
协作研究:OAC 核心:ScaDL:在超级计算机上扩展深度学习科学应用的新方法
  • 批准号:
    2401246
  • 财政年份:
    2023
  • 资助金额:
    $ 59.97万
  • 项目类别:
    Standard Grant
Collaborative Research: Frameworks: Diamond: Democratizing Large Neural Network Model Training for Science
合作研究:框架:钻石:科学大型神经网络模型训练的民主化
  • 批准号:
    2401245
  • 财政年份:
    2023
  • 资助金额:
    $ 59.97万
  • 项目类别:
    Standard Grant
Collaborative Research: OAC Core: ScaDL: New Approaches to Scaling Deep Learning for Science Applications on Supercomputers
协作研究:OAC 核心:ScaDL:在超级计算机上扩展深度学习科学应用的新方法
  • 批准号:
    2106661
  • 财政年份:
    2021
  • 资助金额:
    $ 59.97万
  • 项目类别:
    Standard Grant
Collaborative Research: OAC Core: Small: Efficient and Policy-driven Burst Buffer Sharing
合作研究:OAC Core:小型:高效且策略驱动的突发缓冲区共享
  • 批准号:
    2008388
  • 财政年份:
    2020
  • 资助金额:
    $ 59.97万
  • 项目类别:
    Standard Grant
SHF: Medium:Collaborative Research: Architectural and System Support for Building Versatile Memory Systems
SHF:媒介:协作研究:构建多功能内存系统的架构和系统支持
  • 批准号:
    1643271
  • 财政年份:
    2016
  • 资助金额:
    $ 59.97万
  • 项目类别:
    Continuing Grant
SHF: Medium:Collaborative Research: Architectural and System Support for Building Versatile Memory Systems
SHF:媒介:协作研究:构建多功能内存系统的架构和系统支持
  • 批准号:
    1514229
  • 财政年份:
    2015
  • 资助金额:
    $ 59.97万
  • 项目类别:
    Continuing Grant

相似国自然基金

基于分片区块链的安全高效可扩展联邦大模型训练研究
  • 批准号:
    MS25F020004
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
基于随机化的高效可扩展深度学习算法研究
  • 批准号:
    62376131
  • 批准年份:
    2023
  • 资助金额:
    51 万元
  • 项目类别:
    面上项目
区块链可扩展存储和高频运算高效算法的研究
  • 批准号:
    62072326
  • 批准年份:
    2020
  • 资助金额:
    56 万元
  • 项目类别:
    面上项目
高效能可扩展边缘计算体系结构关键技术研究
  • 批准号:
    62072465
  • 批准年份:
    2020
  • 资助金额:
    56 万元
  • 项目类别:
    面上项目
全球数值天气预报谱模式的高效可扩展并行计算技术研究
  • 批准号:
    41875121
  • 批准年份:
    2018
  • 资助金额:
    62.0 万元
  • 项目类别:
    面上项目
不规则区域上非定常磁流体力学方程可扩展高效并行有限元算法研究
  • 批准号:
    11701151
  • 批准年份:
    2017
  • 资助金额:
    25.0 万元
  • 项目类别:
    青年科学基金项目
航天器再入各流域复杂绕流问题超大规模可扩展并行算法高效实现与验证
  • 批准号:
    91530319
  • 批准年份:
    2015
  • 资助金额:
    310.0 万元
  • 项目类别:
    重大研究计划
异步组播网络的高效能可扩展网络拓扑与路由
  • 批准号:
    61100178
  • 批准年份:
    2011
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
基于多模态信息的高效鲁棒可扩展视频复制检测关键技术及其系统研究
  • 批准号:
    61173110
  • 批准年份:
    2011
  • 资助金额:
    58.0 万元
  • 项目类别:
    面上项目
可扩展的高效XML数据管理关键技术研究
  • 批准号:
    61170011
  • 批准年份:
    2011
  • 资助金额:
    56.0 万元
  • 项目类别:
    面上项目

相似海外基金

CAREER: Multi-Dimensional Photonic Accelerators for Scalable and Efficient Computing
职业:用于可扩展和高效计算的多维光子加速器
  • 批准号:
    2337674
  • 财政年份:
    2024
  • 资助金额:
    $ 59.97万
  • 项目类别:
    Continuing Grant
CAREER: Scalable and Adaptable Sparsity-driven Methods for more Efficient AI Systems
职业:可扩展且适应性强的稀疏驱动方法,可实现更高效的人工智能系统
  • 批准号:
    2238291
  • 财政年份:
    2023
  • 资助金额:
    $ 59.97万
  • 项目类别:
    Continuing Grant
CAREER: Towards Efficient and Scalable Zero-Knowledge Proofs
职业:迈向高效且可扩展的零知识证明
  • 批准号:
    2401481
  • 财政年份:
    2023
  • 资助金额:
    $ 59.97万
  • 项目类别:
    Continuing Grant
CAREER: Towards Efficient and Scalable Zero-Knowledge Proofs
职业:迈向高效且可扩展的零知识证明
  • 批准号:
    2144625
  • 财政年份:
    2022
  • 资助金额:
    $ 59.97万
  • 项目类别:
    Continuing Grant
CAREER: System Support for Scalable, Fast, and Power-Efficient Genome Sequencing
职业:对可扩展、快速且节能的基因组测序的系统支持
  • 批准号:
    2143120
  • 财政年份:
    2022
  • 资助金额:
    $ 59.97万
  • 项目类别:
    Continuing Grant
CAREER: Developing efficient and scalable bioinformatics methods and databases to analyze the adaptive immune repertoires of vertebrate species
职业:开发高效且可扩展的生物信息学方法和数据库来分析脊椎动物的适应性免疫库
  • 批准号:
    2041984
  • 财政年份:
    2021
  • 资助金额:
    $ 59.97万
  • 项目类别:
    Continuing Grant
CAREER: Towards a Principled Framework for Resilient, Data Efficient and Scalable Reinforcement Learning for Control
职业:建立一个有弹性、数据高效且可扩展的强化学习控制原则框架
  • 批准号:
    2045783
  • 财政年份:
    2021
  • 资助金额:
    $ 59.97万
  • 项目类别:
    Continuing Grant
CAREER: Catalytic Hollow-Fiber Membranes as an Efficient and Scalable Process in Water Treatment
职业:催化中空纤维膜作为水处理中的一种高效且可扩展的工艺
  • 批准号:
    1847466
  • 财政年份:
    2019
  • 资助金额:
    $ 59.97万
  • 项目类别:
    Continuing Grant
CAREER: Scalable Manufacturing of Two-dimensional Atomic Layer Materials for Energy-efficient Electronic Devices via Selective-area Atomic Layer Deposition
职业:通过选择性区域原子层沉积大规模制造用于节能电子设备的二维原子层材料
  • 批准号:
    1751268
  • 财政年份:
    2018
  • 资助金额:
    $ 59.97万
  • 项目类别:
    Standard Grant
CAREER: Efficient Structural Analysis of Multivariate Fields for Scalable Visualization
职业:可扩展可视化的多元字段的高效结构分析
  • 批准号:
    1150000
  • 财政年份:
    2012
  • 资助金额:
    $ 59.97万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了