Reinforcement Learning and Kullback-Leibler Stochastic Optimal Control for Complex Networks

复杂网络的强化学习和 Kullback-Leibler 随机最优控制

基本信息

  • 批准号:
    1935389
  • 负责人:
  • 金额:
    $ 38万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2019
  • 资助国家:
    美国
  • 起止时间:
    2019-09-15 至 2023-08-31
  • 项目状态:
    已结题

项目摘要

Natural and man-made networked systems are all around us. The power grid and the Internet are two examples of apparently complex interconnected systems, in which millions of "agents" are eager to extract value in the form of energy or bandwidth. While these systems are complex when measured in graph-theoretic terms, the behavior of communication and energy systems appears simple and highly predictable to the end users (in most of the world). This success is due in part to distributed control loops that manage system-wide supply-demand balance. An example of distributed control in the Internet is TCP/IP, and automatic generation control (AGC) in most electric power grids. While distributed control protocols are highly developed and widely accepted in communication applications, this is less true in other networked systems such as electric power and natural gas distribution. This project aims to advance control theory for complex interconnected systems. The application focus is on power systems, but the control techniques are general and are likely to have far broader impact. Recent control innovations are highlighted in the project as building blocks in the construction of algorithms for control, based on a combination of local decision making and global management of the ensemble: 1. Control techniques for local decision making will be a theme of the project using a new Kullback-Leibler-Quadratic optimal control approach introduced by the PI's group. 2. Reinforcement learning (RL) is the engine behind Google's recent computer game successes and is a natural framework for control synthesis in an uncertain complex environment. The Zap Q-learning algorithms introduced recently by the PI and his colleagues are a new class of RL algorithms that are virtually universally stable and have provably optimal convergence rate. 3. Mean field models have a long history in power systems (with roots in statistical physics), they will be used to approximate aggregate behavior, and as a foundation to construct algorithms to control the aggregate. Algorithm design will be complemented with simulation studies, focusing initially on applications to power systems. A course in smart grid technologies will be augmented and the project will include participation from undergraduate students.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
自然和人为的网络系统无处不在。电网和互联网是两个明显复杂的互联系统的例子,其中数以百万计的“代理”渴望以能量或带宽的形式提取价值。虽然用图论术语来衡量这些系统是复杂的,但通信和能源系统的行为对最终用户(在世界上大多数地区)来说是简单和高度可预测的。这一成功部分归功于分布式控制循环,它管理着全系统的供需平衡。Internet中分布式控制的一个例子是TCP/IP,以及大多数电网中的自动发电控制(AGC)。虽然分布式控制协议在通信应用中得到了高度发展和广泛接受,但在电力和天然气分配等其他网络系统中却不太适用。本项目旨在推进复杂互联系统的控制理论。应用的重点是电力系统,但控制技术是通用的,可能有更广泛的影响。最近的控制创新在项目中被强调为构建控制算法的基石,基于局部决策和整体管理的结合:1。局部决策的控制技术将是该项目的一个主题,使用PI小组引入的新的Kullback-Leibler-Quadratic最优控制方法。2. 强化学习(RL)是b谷歌最近电脑游戏成功背后的引擎,也是在不确定复杂环境中进行控制合成的自然框架。PI和他的同事最近介绍的Zap Q-learning算法是一种新的RL算法,它实际上是普遍稳定的,并且具有可证明的最佳收敛速度。3. 平均场模型在电力系统中有着悠久的历史(植根于统计物理),它们将被用来近似聚合行为,并作为构建控制聚合算法的基础。算法设计将辅以仿真研究,最初侧重于电力系统的应用。智能电网技术的课程将会增加,该项目将包括本科生的参与。该奖项反映了美国国家科学基金会的法定使命,并通过使用基金会的知识价值和更广泛的影响审查标准进行评估,被认为值得支持。

项目成果

期刊论文数量(21)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Quasi-Stochastic Approximation: Design Principles With Applications to Extremum Seeking Control
拟随机逼近:设计原理及其在极值搜索控制中的应用
  • DOI:
    10.1109/mcs.2023.3291884
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Lauand, Caio Kalil;Meyn, Sean
  • 通讯作者:
    Meyn, Sean
The Curse of Memory in Stochastic Approximation
随机逼近中的记忆诅咒
Approaching Quartic Convergence Rates for Quasi-Stochastic Approximation with Application to Gradient-Free Optimization
接近准随机近似的四次收敛率并应用于无梯度优化
Model-Free Primal-Dual Methods for Network Optimization with Application to Real-Time Optimal Power Flow
  • DOI:
    10.23919/acc45564.2020.9147814
  • 发表时间:
    2019-09
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Yue-Chun Chen;A. Bernstein;Adithya M. Devraj;Sean P. Meyn
  • 通讯作者:
    Yue-Chun Chen;A. Bernstein;Adithya M. Devraj;Sean P. Meyn
Load-Level Control Design for Demand Dispatch With Heterogeneous Flexible Loads
异构柔性负载需求调度的负载级控制设计
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Sean Meyn其他文献

Coding and control for communication networks
  • DOI:
    10.1007/s11134-009-9148-3
  • 发表时间:
    2009-11-25
  • 期刊:
  • 影响因子:
    0.700
  • 作者:
    Wei Chen;Danail Traskov;Michael Heindlmaier;Muriel Médard;Sean Meyn;Asuman Ozdaglar
  • 通讯作者:
    Asuman Ozdaglar
Revisiting Step-Size Assumptions in Stochastic Approximation
重新审视随机逼近中的步长假设
  • DOI:
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Caio Kalil Lauand;Sean Meyn
  • 通讯作者:
    Sean Meyn
Dynamic Safety-Stocks for Asymptotic Optimality in Stochastic Networks
  • DOI:
    10.1007/s11134-005-0732-x
  • 发表时间:
    2005-07-01
  • 期刊:
  • 影响因子:
    0.700
  • 作者:
    Sean Meyn
  • 通讯作者:
    Sean Meyn
Revisiting the ODE Method for Recursive Algorithms: Fast Convergence Using Quasi Stochastic Approximation
  • DOI:
    10.1007/s11424-021-1251-5
  • 发表时间:
    2021-10-26
  • 期刊:
  • 影响因子:
    2.800
  • 作者:
    Shuhang Chen;Adithya Devraj;Andrey Berstein;Sean Meyn
  • 通讯作者:
    Sean Meyn
Functional Role of Synchronization: A Mean-Field Control Perspective

Sean Meyn的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Sean Meyn', 18)}}的其他基金

CIF: Small: Accelerating Stochastic Approximation for Optimization and Reinforcement Learning
CIF:小型:加速优化和强化学习的随机逼近
  • 批准号:
    2306023
  • 财政年份:
    2023
  • 资助金额:
    $ 38万
  • 项目类别:
    Standard Grant
Characterizing capacity of controllable DERs to provide energy storage service to the power grid
表征可控分布式能源为电网提供储能服务的能力
  • 批准号:
    2122313
  • 财政年份:
    2021
  • 资助金额:
    $ 38万
  • 项目类别:
    Standard Grant
Distributed Control for Demand Dispatch: The Creation of Virtual Energy Storage from Flexible Loads
需求调度的分布式控制:灵活负载创建虚拟储能
  • 批准号:
    1609131
  • 财政年份:
    2016
  • 资助金额:
    $ 38万
  • 项目类别:
    Standard Grant
CPS:Medium:Collaborative Research: Smart Power Systems of the Future: Foundations for Understanding Volatility and Improving Operational Reliability
CPS:中:合作研究:未来的智能电力系统:理解波动性和提高运行可靠性的基础
  • 批准号:
    1259040
  • 财政年份:
    2012
  • 资助金额:
    $ 38万
  • 项目类别:
    Standard Grant
CPS:Medium:Collaborative Research: Smart Power Systems of the Future: Foundations for Understanding Volatility and Improving Operational Reliability
CPS:中:合作研究:未来的智能电力系统:理解波动性和提高运行可靠性的基础
  • 批准号:
    1135598
  • 财政年份:
    2011
  • 资助金额:
    $ 38万
  • 项目类别:
    Standard Grant
Robust Inference and Communication: Theory, Algorithms and Performance Analysis
稳健的推理和交流:理论、算法和性能分析
  • 批准号:
    0729031
  • 财政年份:
    2007
  • 资助金额:
    $ 38万
  • 项目类别:
    Standard Grant
Control Techniques for Complex Networks
复杂网络的控制技术
  • 批准号:
    0523620
  • 财政年份:
    2005
  • 资助金额:
    $ 38万
  • 项目类别:
    Standard Grant
Visualization & Optimization Techniques For Analysis and Design of Complex Systems
可视化
  • 批准号:
    0217836
  • 财政年份:
    2002
  • 资助金额:
    $ 38万
  • 项目类别:
    Standard Grant
US-India Workshop: Learning, Adaptation, and Optimization, Kerala, India, December 2000
美印研讨会:学习、适应和优化,印度喀拉拉邦,2000 年 12 月
  • 批准号:
    0079744
  • 财政年份:
    2000
  • 资助金额:
    $ 38万
  • 项目类别:
    Standard Grant
Optimization and Performance Evaluation of Network Models
网络模型的优化和性能评估
  • 批准号:
    9972957
  • 财政年份:
    1999
  • 资助金额:
    $ 38万
  • 项目类别:
    Standard Grant

相似国自然基金

Scalable Learning and Optimization: High-dimensional Models and Online Decision-Making Strategies for Big Data Analysis
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    万元
  • 项目类别:
    合作创新研究团队
Understanding structural evolution of galaxies with machine learning
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
煤矿安全人机混合群智感知任务的约束动态多目标Q-learning进化分配
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于领弹失效考量的智能弹药编队短时在线Q-learning协同控制机理
  • 批准号:
    62003314
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
集成上下文张量分解的e-learning资源推荐方法研究
  • 批准号:
    61902016
  • 批准年份:
    2019
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
具有时序迁移能力的Spiking-Transfer learning (脉冲-迁移学习)方法研究
  • 批准号:
    61806040
  • 批准年份:
    2018
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
基于Deep-learning的三江源区冰川监测动态识别技术研究
  • 批准号:
    51769027
  • 批准年份:
    2017
  • 资助金额:
    38.0 万元
  • 项目类别:
    地区科学基金项目
具有时序处理能力的Spiking-Deep Learning(脉冲深度学习)方法研究
  • 批准号:
    61573081
  • 批准年份:
    2015
  • 资助金额:
    64.0 万元
  • 项目类别:
    面上项目
基于有向超图的大型个性化e-learning学习过程模型的自动生成与优化
  • 批准号:
    61572533
  • 批准年份:
    2015
  • 资助金额:
    66.0 万元
  • 项目类别:
    面上项目
E-Learning中学习者情感补偿方法的研究
  • 批准号:
    61402392
  • 批准年份:
    2014
  • 资助金额:
    26.0 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Understanding the Impact of Outdoor Science and Environmental Learning Experiences Through Community-Driven Outcomes
通过社区驱动的成果了解户外科学和环境学习体验的影响
  • 批准号:
    2314075
  • 财政年份:
    2024
  • 资助金额:
    $ 38万
  • 项目类别:
    Continuing Grant
Integrating Self-Regulated Learning Into STEM Courses: Maximizing Learning Outcomes With The Success Through Self-Regulated Learning Framework
将自我调节学习融入 STEM 课程:通过自我调节学习框架取得成功,最大化学习成果
  • 批准号:
    2337176
  • 财政年份:
    2024
  • 资助金额:
    $ 38万
  • 项目类别:
    Standard Grant
CAREER: Blessing of Nonconvexity in Machine Learning - Landscape Analysis and Efficient Algorithms
职业:机器学习中非凸性的祝福 - 景观分析和高效算法
  • 批准号:
    2337776
  • 财政年份:
    2024
  • 资助金额:
    $ 38万
  • 项目类别:
    Continuing Grant
CAREER: Closing the Loop between Learning and Communication for Assistive Robot Arms
职业:关闭辅助机器人手臂的学习和交流之间的循环
  • 批准号:
    2337884
  • 财政年份:
    2024
  • 资助金额:
    $ 38万
  • 项目类别:
    Standard Grant
CAREER: Adaptive Deep Learning Systems Towards Edge Intelligence
职业:迈向边缘智能的自适应深度学习系统
  • 批准号:
    2338512
  • 财政年份:
    2024
  • 资助金额:
    $ 38万
  • 项目类别:
    Continuing Grant
CAREER: Data-Enabled Neural Multi-Step Predictive Control (DeMuSPc): a Learning-Based Predictive and Adaptive Control Approach for Complex Nonlinear Systems
职业:数据支持的神经多步预测控制(DeMuSPc):一种用于复杂非线性系统的基于学习的预测和自适应控制方法
  • 批准号:
    2338749
  • 财政年份:
    2024
  • 资助金额:
    $ 38万
  • 项目类别:
    Standard Grant
CAREER: Structured Minimax Optimization: Theory, Algorithms, and Applications in Robust Learning
职业:结构化极小极大优化:稳健学习中的理论、算法和应用
  • 批准号:
    2338846
  • 财政年份:
    2024
  • 资助金额:
    $ 38万
  • 项目类别:
    Continuing Grant
RII Track-4:NSF: HEAL: Heterogeneity-aware Efficient and Adaptive Learning at Clusters and Edges
RII Track-4:NSF:HEAL:集群和边缘的异质性感知高效自适应学习
  • 批准号:
    2327452
  • 财政年份:
    2024
  • 资助金额:
    $ 38万
  • 项目类别:
    Standard Grant
RII Track-4:NSF: Physics-Informed Machine Learning with Organ-on-a-Chip Data for an In-Depth Understanding of Disease Progression and Drug Delivery Dynamics
RII Track-4:NSF:利用器官芯片数据进行物理信息机器学习,深入了解疾病进展和药物输送动力学
  • 批准号:
    2327473
  • 财政年份:
    2024
  • 资助金额:
    $ 38万
  • 项目类别:
    Standard Grant
Collaborative Research: NCS-FR: Individual variability in auditory learning characterized using multi-scale and multi-modal physiology and neuromodulation
合作研究:NCS-FR:利用多尺度、多模式生理学和神经调节表征听觉学习的个体差异
  • 批准号:
    2409652
  • 财政年份:
    2024
  • 资助金额:
    $ 38万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了