CNS Core: Small: Integrating Real-Time Learning and Control for Large and Dynamic Networked Computer Systems

CNS 核心:小型:集成大型动态网络计算机系统的实时学习和控制

基本信息

  • 批准号:
    2113893
  • 负责人:
  • 金额:
    $ 50万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2021
  • 资助国家:
    美国
  • 起止时间:
    2021-10-01 至 2024-09-30
  • 项目状态:
    已结题

项目摘要

Large computer and network systems (such as data centers) are the workhorses driving our information society. However, they are also increasingly difficult to control and operate due to their enormous size, fast-changing workload, and significant uncertainty in resource requirement and availability. Traditional approaches to control and optimization rely on carefully-constructed models of the systems under study, but they become insufficient in such a fast-changing environment when crucial components of the system model are either unknown or constantly changing. Instead, this project aims to develop new methods that can quickly learn an updated model from fresh real-time data, and that integrate such real-time learning with real-time control to improve the efficiency, adaptability, and quality-of-service (QoS) of large-scale and dynamic networked computer systems. Specifically, the project focuses on the operation of large data centers serving big-data analytics and deep-learning training workloads, and develops new real-time learning and stochastic control policies that are not only efficient, but also scalable, able to interpret, and adaptive. The intellectual merits include: (i) real-time learning and control policies that can learn, from real-time feedback, server-dependent features of the computing and network jobs, to greatly improve the throughput of data centers running large and heterogeneous workload, reduce job completing times, and meet service deadlines; and (ii) real-time learning and control policies tailored to the unique features of deep-learning training workload, which can quickly estimate the total training time and the dependency across heterogeneous processing units, to optimize both throughput and delay.The proposed research has the potential to have a lasting impact to knowledge discovery and education. The results could enable data centers to run jobs faster and complete them sooner, and therefore benefit the computing industry, both by improving the overall efficiency of data centers running diverse and fast-changing workload, and by improving the satisfaction of users who rely on data centers for business decisions and data analytics. The research findings may contribute to the general theory of both online learning and stochastic control, which will also be useful for other computer and network systems with both uncertain system dynamics and uncertain agent features, such as wireless networks and online service platforms. Students on the project will be trained on both theoretic tools (including online learning, stochastic control, and data analytics) and system building skills (including cluster computing and data-center networking), which are essential for the future big-data economy. Further, the outreach activity integrated with the research computed will broaden the knowledge of high school students on the key principles of online learning and big-data.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
大型计算机和网络系统(如数据中心)是推动我们的信息社会的主力。然而,由于其庞大的规模、快速变化的工作量以及资源需求和可用性的重大不确定性,它们也越来越难以控制和运作。传统的控制和优化方法依赖于精心构建的系统模型,但当系统模型的关键组件未知或不断变化时,它们在快速变化的环境中变得不足。相反,该项目旨在开发新的方法,可以快速学习更新的模型,从新鲜的实时数据,并将这种实时学习与实时控制,以提高效率,适应性和服务质量(QoS)的大规模和动态网络计算机系统。具体而言,该项目专注于服务于大数据分析和深度学习培训工作负载的大型数据中心的运营,并开发新的实时学习和随机控制策略,这些策略不仅高效,而且可扩展,能够解释和自适应。 智力上的优点包括:(i)实时学习和控制策略,其可以从实时反馈学习计算和网络作业的服务器相关特征,以大大提高运行大的和异构的工作负载的数据中心的吞吐量,减少作业完成时间,并满足服务期限;以及(ii)针对深度学习训练工作量的独特特征定制的实时学习和控制策略,该方法能够快速估计训练总时间和异构处理单元间的依赖关系,从而优化吞吐量和延迟,对知识发现和教育具有潜在的影响。结果可以使数据中心更快地运行作业并更快地完成作业,从而通过提高运行多样化和快速变化的工作负载的数据中心的整体效率以及提高依赖数据中心进行业务决策和数据分析的用户的满意度来使计算行业受益。这些研究成果将有助于在线学习和随机控制的一般理论,这也将有助于其他计算机和网络系统的不确定系统动力学和不确定代理的功能,如无线网络和在线服务平台。该项目的学生将接受理论工具(包括在线学习,随机控制和数据分析)和系统构建技能(包括集群计算和数据中心网络)的培训,这对未来的大数据经济至关重要。此外,与计算研究相结合的外展活动将扩大高中生对在线学习和大数据关键原则的知识。该奖项反映了NSF的法定使命,并通过使用基金会的智力价值和更广泛的影响审查标准进行评估,被认为值得支持。

项目成果

期刊论文数量(2)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
A Case for Task Sampling based Learning for Cluster Job Scheduling
基于任务采样的集群作业调度学习案例
  • DOI:
    10.1109/tcc.2022.3222649
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    6.5
  • 作者:
    Jajoo, Akshay;Hu, Y. Charlie;Lin, Xiaojun;Deng, Nan
  • 通讯作者:
    Deng, Nan
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Charlie Hu其他文献

A Data Reorganization Technique for Improving Data Locality ofIrregular Applications in Software Distributed Shared MemoryY
软件分布式共享内存中提高不规则应用数据局部性的数据重组技术
  • DOI:
  • 发表时间:
    1999
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Charlie Hu
  • 通讯作者:
    Charlie Hu
A performance comparison of homeless and home-based lazy release consistency protocols in software shared memory
软件共享内存中无家可归者和基于家庭的延迟释放一致性协议的性能比较
OpenMP on Networks of Workstations
工作站网络上的 OpenMP
On the efficacy of fine-grained traffic splitting protocols in data center networks
数据中心网络中细粒度流量分流协议的功效
  • DOI:
    10.1145/2254756.2254818
  • 发表时间:
    2012
  • 期刊:
  • 影响因子:
    0
  • 作者:
    A. Dixit;P. Prakash;R. Kompella;Charlie Hu
  • 通讯作者:
    Charlie Hu

Charlie Hu的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Charlie Hu', 18)}}的其他基金

Collaborative Research: NeTS: Medium: Black-box Optimization of White-box Networks: Online Learning for Autonomous Resource Management in NextG Wireless Networks
合作研究:NeTS:中:白盒网络的黑盒优化:下一代无线网络中自主资源管理的在线学习
  • 批准号:
    2312834
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Collaborative Research: CNS Core: Small: Edge AI with Streaming Data: Algorithmic Foundations for Online Learning and Control
合作研究:中枢神经系统核心:小型:具有流数据的边缘人工智能:在线学习和控制的算法基础
  • 批准号:
    2225950
  • 财政年份:
    2022
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
CNS Core: Small: Software-Defined Video Analytics Pipeline: Enabling Resilient, High-Accuracy, and Resource-Effective Video Analytics
CNS 核心:小型:软件定义的视频分析管道:实现弹性、高精度和资源高效的视频分析
  • 批准号:
    2211459
  • 财政年份:
    2022
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
CNS Core: Small: A Split Software Architecture for Enabling High-Quality Mixed Reality on Commodity Mobile Devices
CNS 核心:小型:用于在商用移动设备上实现高质量混合现实的分离式软件架构
  • 批准号:
    2112778
  • 财政年份:
    2021
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
ICN-WEN: Collaborative Research: SPLICE: Secure Predictive Low-Latency Information Centric Edge for Next Generation Wireless Networks
ICN-WEN:协作研究:SPLICE:下一代无线网络的安全预测低延迟信息中心边缘
  • 批准号:
    1719369
  • 财政年份:
    2017
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
CSR: Small: Extending Smartphone Battery Life via Prescriptive Energy Profiling
CSR:小:通过规范的能量分析延长智能手机电池寿命
  • 批准号:
    1718854
  • 财政年份:
    2017
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
SBIR Phase I: Enabling Techologies for Energy-Centric Mobile App Design to Extend Mobile Device Battery Life
SBIR 第一阶段:以能源为中心的移动应用程序设计支持技术,以延长移动设备的电池寿命
  • 批准号:
    1549214
  • 财政年份:
    2016
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
SHF: Small: Detecting and Mitigating Smartphone Energy Bugs using Compiler and Runtime Analysis
SHF:小型:使用编译器和运行时分析检测和缓解智能手机能源错误
  • 批准号:
    1320764
  • 财政年份:
    2013
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
NetSE: Medium: Collaborative Research: Auditing Internet Content for Credibility, Fairness, and Privacy
NetSE:媒介:协作研究:审核互联网内容的可信度、公平性和隐私
  • 批准号:
    1065456
  • 财政年份:
    2011
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
NeTS-NOSS: AIDA: Autonomous Information Dissemination in RAndomly Deployed Sensor Networks
NeTS-NOSS:AIDA:随机部署的传感器网络中的自主信息传播
  • 批准号:
    0721873
  • 财政年份:
    2007
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant

相似国自然基金

胆固醇羟化酶CH25H非酶活依赖性促进乙型肝炎病毒蛋白Core及Pre-core降解的分子机制研究
  • 批准号:
    82371765
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
锕系元素5f-in-core的GTH赝势和基组的开发
  • 批准号:
    22303037
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于合成致死策略搭建Core-matched前药共组装体克服肿瘤耐药的机制研究
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    52 万元
  • 项目类别:
鼠伤寒沙门氏菌LPS core经由CD209/SphK1促进树突状细胞迁移加重炎症性肠病的机制研究
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
肌营养不良蛋白聚糖Core M3型甘露糖肽的精确制备及功能探索
  • 批准号:
    92053110
  • 批准年份:
    2020
  • 资助金额:
    70.0 万元
  • 项目类别:
    重大研究计划
Core-1-O型聚糖黏蛋白缺陷诱导胃炎发生并介导慢性胃炎向胃癌转化的分子机制研究
  • 批准号:
    81902805
  • 批准年份:
    2019
  • 资助金额:
    20.5 万元
  • 项目类别:
    青年科学基金项目
原始地球增生晚期的Core-merging大碰撞事件:地核增生、核幔平衡与核幔边界结构的新认识
  • 批准号:
    41973063
  • 批准年份:
    2019
  • 资助金额:
    65.0 万元
  • 项目类别:
    面上项目
CORDEX-CORE区域气候模拟与预估研讨会
  • 批准号:
    41981240365
  • 批准年份:
    2019
  • 资助金额:
    1.5 万元
  • 项目类别:
    国际(地区)合作与交流项目
RBM38通过协助Pol-ε结合、招募core调控HBV复制
  • 批准号:
    31900138
  • 批准年份:
    2019
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

CNS Core: Small: Core Scheduling Techniques and Programming Abstractions for Scalable Serverless Edge Computing Engine
CNS Core:小型:可扩展无服务器边缘计算引擎的核心调度技术和编程抽象
  • 批准号:
    2322919
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
CNS Core: Small: Network Wide Sensing by Leveraging Cellular Communication Networks
CNS 核心:小型:利用蜂窝通信网络进行全网络传感
  • 批准号:
    2343469
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
CNS Core: Small: Intelligent Fault Injection to Expose and Reproduce Production-Grade Bugs in Cloud Systems
CNS 核心:小型:智能故障注入以暴露和重现云系统中的生产级错误
  • 批准号:
    2317698
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
CNS Core: Small: Repurposing Smartphones to Minimize Carbon
CNS 核心:小型:重新利用智能手机以最大限度地减少碳排放
  • 批准号:
    2233894
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Collaborative Research: CNS Core: Small: A Compilation System for Mapping Deep Learning Models to Tensorized Instructions (DELITE)
合作研究:CNS Core:Small:将深度学习模型映射到张量化指令的编译系统(DELITE)
  • 批准号:
    2230945
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Collaborative Research: NSF-AoF: CNS Core: Small: Towards Scalable and Al-based Solutions for Beyond-5G Radio Access Networks
合作研究:NSF-AoF:CNS 核心:小型:面向超 5G 无线接入网络的可扩展和基于人工智能的解决方案
  • 批准号:
    2225578
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
CNS Core: Small: Toward Opportunistic, Fast, and Robust In-Cache AI Acceleration at the Edge
CNS 核心:小型:在边缘实现机会主义、快速且稳健的缓存内 AI 加速
  • 批准号:
    2228028
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Collaborative Research: CNS Core: Small: SmartSight: an AI-Based Computing Platform to Assist Blind and Visually Impaired People
合作研究:中枢神经系统核心:小型:SmartSight:基于人工智能的计算平台,帮助盲人和视障人士
  • 批准号:
    2418188
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
CNS Core: Small: Redesigning I/O Across Heterogeneous Systems
CNS 核心:小型:跨异构系统重新设计 I/O
  • 批准号:
    2231724
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Collaborative Research: CNS Core: Small: Creating An Extensible Internet Through Interposition
合作研究:CNS核心:小:通过介入创建可扩展的互联网
  • 批准号:
    2242503
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了