AF: RI: Medium: Collaborative Research: Understanding and Improving Optimization in Deep and Recurrent Networks
AF:RI:中:协作研究:理解和改进深度和循环网络的优化
基本信息
- 批准号:1763562
- 负责人:
- 金额:$ 32.91万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2018
- 资助国家:美国
- 起止时间:2018-08-01 至 2022-07-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Machine learning using deep neural networks has recently demonstrated broad empirical success. Despite this success, the optimization procedures that fit deep neural networks to data are still poorly understood. Besides playing a crucial role in fitting deep neural networks to data, optimization also strongly affects the model's ability to generalize from training examples to unseen data. This project will establish a working theory for why and when large artificial neural networks train and generalize well, and use this theory to develop new optimization methods. The utility of the new methods will be demonstrated in applications involving language, speech, biological sequences and other sequence data. The project will involve training of graduate and undergraduate students, and the project leaders will offer tutorials aimed at both the machine learning community, and other researchers and engineers using machine learning tools. In order to establish a theory of why and when non-convex optimization works well when training deep networks, both empirical top-down and analytic bottom-up approaches will be pursued. The top-down approach will involve phenomenological analysis of large scale deep models used in practice, both when presented with real data, and when presented with data specifically crafted to test the behavior of the network. The bottom-up approach will involve precise analytic investigation from increasingly more complex models, starting with linear models, and non-convex matrix factorization, progressing through linear neural networks, models with a small number of hidden layers, and eventually reaching deeper and more complex networks. The theory developed aims to be both explanatory and actionable, and will be used to derive new optimization methods and modifications to architectures that aid in optimization and generalization. A particularly important testbed is the case of recurrent neural networks. Recurrent neural networks are powerful sequence models that maintain state as they process an input sequence and are used for sequence data. Particularly challenging to optimize, recurrent neural networks still leave much room for a stronger principled understanding, which the project aims to provide.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
使用深度神经网络的机器学习最近已经证明了广泛的经验成功。尽管取得了这一成功,但将深度神经网络与数据相匹配的优化过程仍然知之甚少。除了在将深度神经网络拟合到数据中发挥关键作用外,优化还强烈影响模型从训练示例推广到未知数据的能力。该项目将建立一个工作理论,解释为什么以及何时大型人工神经网络能够很好地训练和推广,并使用该理论开发新的优化方法。新方法的实用性将在涉及语言、语音、生物序列和其他序列数据的应用中得到证明。该项目将涉及研究生和本科生的培训,项目负责人将提供针对机器学习社区以及其他使用机器学习工具的研究人员和工程师的教程。为了建立一个关于非凸优化在训练深度网络时为什么以及何时有效的理论,将采用经验自上而下和分析自下而上的方法。自上而下的方法将涉及对实践中使用的大规模深度模型的现象学分析,无论是在提供真实的数据时,还是在提供专门用于测试网络行为的数据时。自下而上的方法将涉及从越来越复杂的模型中进行精确的分析研究,从线性模型开始,非凸矩阵分解,通过线性神经网络,具有少量隐藏层的模型,最终达到更深,更复杂的网络。开发的理论旨在具有解释性和可操作性,并将用于推导新的优化方法和对架构的修改,以帮助优化和推广。一个特别重要的测试平台是递归神经网络。递归神经网络是功能强大的序列模型,在处理输入序列时保持状态,并用于序列数据。该奖项反映了NSF的法定使命,并通过使用基金会的知识价值和更广泛的影响审查标准进行评估,被认为值得支持。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Ruslan Salakhutdinov其他文献
Ground-truthed and high-resolution drone images of the leafy spurge weed plant (Euphorbia esula)
多叶大戟杂草(大戟属)的实地验证和高分辨率无人机图像
- DOI:
10.1038/s41597-025-05094-6 - 发表时间:
2025-05-06 - 期刊:
- 影响因子:6.900
- 作者:
Kyle Doherty;Max Gurinas;Erik Samsoe;Charles Casper;Beau Larkin;Philip Ramsey;Brandon Trabucco;Ruslan Salakhutdinov - 通讯作者:
Ruslan Salakhutdinov
DeCoT: Debiasing Chain-of-Thought for Knowledge-Intensive Tasks in Large Language Models via Causal Intervention
DeCoT:通过因果干预消除大型语言模型中知识密集型任务的思维链偏差
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
Tamera Lanham;Anna Chen;Ansh Radhakrishnan;Benoit Steiner;Carson E. Denison;Danny Hernan;Dustin Li;Esin Durmus;Evan Hubinger;Xingxuan Li;Yew Ruochen Zhao;Bosheng Ken Chia;Zhoubo Li;Ningyu Zhang;Yunzhi Yao;Meng Wang;Kaixin Ma;Hao Cheng;Xiaodong Liu;Eric Nyberg;Alex Troy Mallen;Akari Asai;Victor Zhong;Rajarshi Das;Stephen L. Morgan;Christopher Winship;Weijia Shi;Xiaochuang Han;Mike Lewis;Luke Tsvetkov;Zettlemoyer Scott;Wen;Xin Su;Tiep Le;Steven Bethard;Yifan Kai Sun;Ethan Xu;Hanwen Zha;Yue Liu;Hugo Touvron;Louis Martin;Kevin Stone;Peter Al;Amjad Almahairi;Yasmine Babaei;Nikolay;Cunxiang Wang;Xiaoze Liu;Xian;Keheng Wang;Feiyu Duan;Peiguang Sirui Wang;Junda Wu;Tong Yu;Shuai Li;Deconfounded;Suhang Wu;Min Peng;Yue Chen;Jinsong Su;Shicheng Xu;Liang Pang;Huawei Shen;Xueqi Cheng;Zhilin Yang;Peng Qi;Saizheng Zhang;Yoshua Ben;William Cohen;Ruslan Salakhutdinov;Jia;Kun;Zhen;Chenhan Yuan;Qianqian Xie;Jimin Huang;Li;Yangyi Chen;Ganqu Cui;Hongcheng;Fangyuan Gao;Xingyi Zou;Heng Cheng;Ji - 通讯作者:
Ji
Ordovician mantle dynamics in NE-Japan constraints from layered structures of Cumulate Member in the Hayachine-Miyamori Ophiolite
日本东北部奥陶纪地幔动力学受早山-宫森蛇绿岩堆积段层状结构的约束
- DOI:
- 发表时间:
2018 - 期刊:
- 影响因子:0
- 作者:
Makoto Yamada;Denny Wu;Yao-Hung Hubert Tsai;Hirofumi Ohta;Ruslan Salakhutdinov;Ichiro Takeuchi;Kenji Fukumizu;木村 皐史・小澤 一仁・飯塚 毅 - 通讯作者:
木村 皐史・小澤 一仁・飯塚 毅
Tree Search for Language Model Agents
语言模型代理的树搜索
- DOI:
- 发表时间:
2024 - 期刊:
- 影响因子:0
- 作者:
Jing Yu Koh;Stephen McAleer;Daniel Fried;Ruslan Salakhutdinov - 通讯作者:
Ruslan Salakhutdinov
C AUSAL R: Causal Reasoning over Natural Language Rulebases
C AUSAL R:自然语言规则库的因果推理
- DOI:
- 发表时间:
2021 - 期刊:
- 影响因子:0
- 作者:
Jason Weston;Antoine Bordes;S. Chopra;Thomas Wolf;Lysandre Debut;Julien Victor Sanh;Clement Chaumond;Anthony Delangue;Pier;Tim ric Cistac;Rémi Rault;Morgan Louf;Funtow;Sam Davison;Patrick Shleifer;V. Platen;Clara Ma;Yacine Jernite;J. Plu;Canwen Xu;Zhilin Yang;Peng Qi;Saizheng Zhang;Y. Bengio;William Cohen;Ruslan Salakhutdinov - 通讯作者:
Ruslan Salakhutdinov
Ruslan Salakhutdinov的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Ruslan Salakhutdinov', 18)}}的其他基金
Phase I I/UCRC Carnegie Mellon University: Center for Big Learning CBL
第一阶段 I/UCRC 卡内基梅隆大学:大学习中心 CBL
- 批准号:
1747769 - 财政年份:2018
- 资助金额:
$ 32.91万 - 项目类别:
Continuing Grant
Carnegie Mellon University Planning Grant: I/UCRC for Big Learning
卡内基梅隆大学规划补助金:I/UCRC for Big Learning
- 批准号:
1650485 - 财政年份:2017
- 资助金额:
$ 32.91万 - 项目类别:
Standard Grant
相似国自然基金
醒脑静多靶点调控PI3K/Akt通路抑制CI/RI氧化应激—基于网络药理学及体内、外实验研究
- 批准号:2025JJ90117
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
IgA-FcαRI介导的Syk/NLRP3/caspase-1通路在线状IgA大疱性皮病
中的机制研究
- 批准号:
- 批准年份:2024
- 资助金额:0.0 万元
- 项目类别:省市级项目
基于双修饰ANG-RNH1系统阻抑RI复合物生成机制建立口腔黏膜等效物血管化稳态
- 批准号:82401112
- 批准年份:2024
- 资助金额:30 万元
- 项目类别:青年科学基金项目
跨膜蛋白LRP5胞外域调控膜受体TβRI促钛表面BMSCs归巢、分化的研究
- 批准号:82301120
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
基于“免疫-神经”网络探讨眼针活化CI/RI大鼠MC靶向H3R调节“免疫监视”的抗炎机制
- 批准号:82374375
- 批准年份:2023
- 资助金额:51 万元
- 项目类别:面上项目
Dectin-2通过促进FcεRI聚集和肥大细胞活化加剧哮喘发作的机制研究
- 批准号:82300022
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
藏药甘肃蚤缀β-咔啉生物碱类TβRI抑制剂的发现及其抗肺纤维化作用机制研究
- 批准号:
- 批准年份:2022
- 资助金额:30 万元
- 项目类别:青年科学基金项目
nCs通过TβRI结合并磷酸化Axin促进颌骨成骨反应的作用及机制研究
- 批准号:2022J011347
- 批准年份:2022
- 资助金额:10.0 万元
- 项目类别:省市级项目
TβRI的UFM化修饰调控TGF-β信号通路和乳腺癌转移的作用及机制研究
- 批准号:
- 批准年份:2022
- 资助金额:30 万元
- 项目类别:青年科学基金项目
基于 FcεRI 信号通路介导的肥大细胞脱颗粒过程研究支气管哮喘的机制及中药干预
- 批准号:2022JJ70115
- 批准年份:2022
- 资助金额:0.0 万元
- 项目类别:省市级项目
相似海外基金
Collaborative Research: RI: Medium: Principles for Optimization, Generalization, and Transferability via Deep Neural Collapse
合作研究:RI:中:通过深度神经崩溃实现优化、泛化和可迁移性的原理
- 批准号:
2312841 - 财政年份:2023
- 资助金额:
$ 32.91万 - 项目类别:
Standard Grant
Collaborative Research: RI: Medium: Principles for Optimization, Generalization, and Transferability via Deep Neural Collapse
合作研究:RI:中:通过深度神经崩溃实现优化、泛化和可迁移性的原理
- 批准号:
2312842 - 财政年份:2023
- 资助金额:
$ 32.91万 - 项目类别:
Standard Grant
Collaborative Research: RI: Medium: Lie group representation learning for vision
协作研究:RI:中:视觉的李群表示学习
- 批准号:
2313151 - 财政年份:2023
- 资助金额:
$ 32.91万 - 项目类别:
Continuing Grant
Collaborative Research: RI: Medium: Principles for Optimization, Generalization, and Transferability via Deep Neural Collapse
合作研究:RI:中:通过深度神经崩溃实现优化、泛化和可迁移性的原理
- 批准号:
2312840 - 财政年份:2023
- 资助金额:
$ 32.91万 - 项目类别:
Standard Grant
Collaborative Research: CompCog: RI: Medium: Understanding human planning through AI-assisted analysis of a massive chess dataset
合作研究:CompCog:RI:中:通过人工智能辅助分析海量国际象棋数据集了解人类规划
- 批准号:
2312374 - 财政年份:2023
- 资助金额:
$ 32.91万 - 项目类别:
Standard Grant
Collaborative Research: CompCog: RI: Medium: Understanding human planning through AI-assisted analysis of a massive chess dataset
合作研究:CompCog:RI:中:通过人工智能辅助分析海量国际象棋数据集了解人类规划
- 批准号:
2312373 - 财政年份:2023
- 资助金额:
$ 32.91万 - 项目类别:
Standard Grant
Collaborative Research: RI: Medium: Lie group representation learning for vision
协作研究:RI:中:视觉的李群表示学习
- 批准号:
2313149 - 财政年份:2023
- 资助金额:
$ 32.91万 - 项目类别:
Continuing Grant
Collaborative Research: RI: Medium: Superhuman Imitation Learning from Heterogeneous Demonstrations
合作研究:RI:媒介:异质演示中的超人模仿学习
- 批准号:
2312955 - 财政年份:2023
- 资助金额:
$ 32.91万 - 项目类别:
Standard Grant
Collaborative Research: RI: Medium: Informed, Fair, Efficient, and Incentive-Aware Group Decision Making
协作研究:RI:媒介:知情、公平、高效和具有激励意识的群体决策
- 批准号:
2313137 - 财政年份:2023
- 资助金额:
$ 32.91万 - 项目类别:
Standard Grant
Collaborative Research: RI: Medium: Lie group representation learning for vision
协作研究:RI:中:视觉的李群表示学习
- 批准号:
2313150 - 财政年份:2023
- 资助金额:
$ 32.91万 - 项目类别:
Continuing Grant