CSR-AES: Troubleshooting Large Scale Computing Grids with Machine Learning Techniques
CSR-AES:利用机器学习技术对大规模计算网格进行故障排除
基本信息
- 批准号:0720813
- 负责人:
- 金额:$ 3万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2007
- 资助国家:美国
- 起止时间:2007-08-01 至 2008-07-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Both users and administrators of computing grids are presented with enormous challenges in debugging and troubleshooting. Diagnosing a problem with one application on one machine is hard enough, but diagnosing problems in workloads of millions of jobs running on thousands of machines is a problem of a new order of magnitude. Suppose that a user submits one million jobs to a grid, only to discover some time later that half of them have failed. Each individual failure could be the manifestation of one of many kinds of error: a job specification error, a machine configuration error, a transient system state, and many others. It does little use to investigate any one instance of failure. Rather, users of large scale systems need tools that describe the overall situation, indicating what problems are commonplace versus occasional, and which are deterministic versus random. Machine learning techniques can be used to debug these kinds of problems in large scale systems. The proposal poses the following research questions: What sort of failures is most common in grids? What data must be collected to identify these failures? What innovations in machine learning algorithms are required to be successful in this domain? This project will generate new understanding by collecting large amounts of production data from TeraGrid and OSG, developing novel analysis techniques, and working closely with end users to produce useful diagnoses. The results will provide both new understanding of complex large scale computer systems, as well as innovations in machine learning algorithms to tackle such scenarios.
计算网格的用户和管理员在调试和故障排除方面都面临着巨大的挑战。诊断一台机器上的一个应用程序的问题已经很困难了,但是诊断在数千台机器上运行的数百万个作业的工作负载中的问题是一个新的数量级的问题。假设用户向网格提交了一百万个作业,一段时间后才发现其中一半失败了。每个单独的故障都可能是多种错误之一的表现:作业规范错误、机器配置错误、瞬态系统状态以及许多其他错误。调查任何一个失败的例子都没有什么用处。相反,大规模系统的用户需要能够描述整体情况的工具,指出哪些问题是常见的,哪些是偶然的,哪些是确定性的,哪些是随机的。机器学习技术可用于在大型系统中调试这类问题。该提案提出了以下研究问题:电网中最常见的故障类型是什么?必须收集哪些数据来识别这些故障?要在这个领域取得成功,机器学习算法需要哪些创新?该项目将通过从TeraGrid和OSG收集大量生产数据,开发新的分析技术,并与最终用户密切合作,产生有用的诊断,从而产生新的认识。研究结果将提供对复杂的大规模计算机系统的新理解,以及解决此类场景的机器学习算法的创新。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Nitesh Chawla其他文献
Understanding imbalanced data: XAI & interpretable ML framework
了解不平衡数据:XAI
- DOI:
- 发表时间:
2024 - 期刊:
- 影响因子:0
- 作者:
Damien Dablain;Colin Bellinger;Bartosz Krawczyk;D. Aha;Nitesh Chawla - 通讯作者:
Nitesh Chawla
Nitesh Chawla的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Nitesh Chawla', 18)}}的其他基金
SCC-CIVIC-PG Track B: Community-Based Research meets Systems Approach: Closing the Loop on Child Lead Poisoning
SCC-CIVIC-PG 轨道 B:基于社区的研究与系统方法的结合:关闭儿童铅中毒的循环
- 批准号:
2228687 - 财政年份:2022
- 资助金额:
$ 3万 - 项目类别:
Standard Grant
HDR: DSC: Interdisciplinary Traineeship for Socially Responsible and Engaged Data Scientists
HDR:DSC:具有社会责任感和参与度的数据科学家的跨学科培训
- 批准号:
1924279 - 财政年份:2019
- 资助金额:
$ 3万 - 项目类别:
Standard Grant
Student Travel Support for the 2015 SIAM International Conference on Data Mining
2015 年 SIAM 国际数据挖掘会议的学生旅行支持
- 批准号:
1535285 - 财政年份:2015
- 资助金额:
$ 3万 - 项目类别:
Standard Grant
BIGDATA: F: DKM: Addressing the two V's of Veracity and Variety in Big Data
BIGDATA:F:DKM:解决大数据中的准确性和多样性这两个 V
- 批准号:
1447795 - 财政年份:2014
- 资助金额:
$ 3万 - 项目类别:
Standard Grant
CDI-TYPE II: Building and studying a virtual organization for adaptation to climate change
CDI-TYPE II:建立和研究适应气候变化的虚拟组织
- 批准号:
1029584 - 财政年份:2010
- 资助金额:
$ 3万 - 项目类别:
Standard Grant
Collaborative Research: AIS: Incremental Learning from Unbalanced Data in Nonstationary Environments
合作研究:AIS:非平稳环境中不平衡数据的增量学习
- 批准号:
0926170 - 财政年份:2009
- 资助金额:
$ 3万 - 项目类别:
Standard Grant
相似国自然基金
CK1δ/ε介导的AES的降解调控结直肠癌转移和干性的机制研究
- 批准号:31870754
- 批准年份:2018
- 资助金额:59.0 万元
- 项目类别:面上项目
面向AES密钥扩展的抗功耗攻击掩码技术研究
- 批准号:61602239
- 批准年份:2016
- 资助金额:21.0 万元
- 项目类别:青年科学基金项目
具有自主产权的安诚嵌入式处理器上支持AES及GF(2^n)运算的指令扩展结构研究
- 批准号:61373141
- 批准年份:2013
- 资助金额:79.0 万元
- 项目类别:面上项目
肝癌AES治疗体系中新型人源化双特异性抗体的研制
- 批准号:30200330
- 批准年份:2002
- 资助金额:19.0 万元
- 项目类别:青年科学基金项目
AES、SH3BGR和calpain相关新信号通路及与心肌重塑关系的研究
- 批准号:30200106
- 批准年份:2002
- 资助金额:21.0 万元
- 项目类别:青年科学基金项目
单个成矿流体包裹体元素组成的LA-ICP-MS-AES研究
- 批准号:49973026
- 批准年份:1999
- 资助金额:20.0 万元
- 项目类别:面上项目
加权增量卡尔曼滤波在ICP-AES中的应用
- 批准号:29475187
- 批准年份:1994
- 资助金额:5.5 万元
- 项目类别:面上项目
ICP-AES数字化谱信息的智能化处理
- 批准号:29275210
- 批准年份:1992
- 资助金额:4.0 万元
- 项目类别:面上项目
ICPAS 联用和联机技术及GD作为AES 及MS离子源的应用及
- 批准号:29235112
- 批准年份:1992
- 资助金额:18.0 万元
- 项目类别:重点项目
ICP-AES中的一种新型光谱干扰校正方法的研究
- 批准号:28870228
- 批准年份:1988
- 资助金额:4.0 万元
- 项目类别:面上项目
相似海外基金
Laser Ablation ICP Atomic Emission Spectrometry (LA-ICP-AES) for in situ microanalysis
用于原位微量分析的激光烧蚀 ICP 原子发射光谱法 (LA-ICP-AES)
- 批准号:
464364655 - 财政年份:2021
- 资助金额:
$ 3万 - 项目类别:
Major Research Instrumentation
Urgent replacement of an ICP-AES for the measurement of trace metals in environmental samples
紧急更换 ICP-AES 来测量环境样品中的痕量金属
- 批准号:
RTI-2022-00119 - 财政年份:2021
- 资助金额:
$ 3万 - 项目类别:
Research Tools and Instruments
FDA LFFM: Discipline-Chemistry - Analytical Track- Animal Food Product Testing at CT AES
FDA LFFM:学科化学 - 分析跟踪 - CT AES 动物食品产品测试
- 批准号:
10445924 - 财政年份:2020
- 资助金额:
$ 3万 - 项目类别:
FDA LFFM: Discipline-Chemistry - Analytical Track- Food Defense at CT AES
FDA LFFM:CT AES 的学科化学 - 分析跟踪 - 食品防护
- 批准号:
10170737 - 财政年份:2020
- 资助金额:
$ 3万 - 项目类别:
FDA LFFM: Discipline-Chemistry - Analytical Track- Animal Food Product Testing at CT AES
FDA LFFM:学科化学 - 分析跟踪 - CT AES 动物食品产品测试
- 批准号:
10170739 - 财政年份:2020
- 资助金额:
$ 3万 - 项目类别:
FDA LFFM: Discipline-Chemistry - Analytical Track- Human Food Product Testing at CT AES
FDA LFFM:学科化学 - 分析跟踪 - CT AES 的人类食品测试
- 批准号:
10170738 - 财政年份:2020
- 资助金额:
$ 3万 - 项目类别:
FDA LFFM: Discipline-Special Projects Analytical Track-Sample Collection at CT AES
FDA LFFM:CT AES 学科特殊项目分析跟踪样本收集
- 批准号:
10417779 - 财政年份:2020
- 资助金额:
$ 3万 - 项目类别:
FDA LFFM: Discipline- Special Projects - Analytical Track-NFSDX Integration or ORAPP Adoption at CT AES
FDA LFFM:学科 - 特别项目 - 分析跟踪 - NFSDX 集成或 CT AES 采用 ORAPP
- 批准号:
10170742 - 财政年份:2020
- 资助金额:
$ 3万 - 项目类别:
FDA LFFM: Discipline-Special Projects Analytical Track-Method Development and Method Validation at CT AES
FDA LFFM:CT AES 的学科特殊项目分析跟踪方法开发和方法验证
- 批准号:
10170743 - 财政年份:2020
- 资助金额:
$ 3万 - 项目类别:
FDA LFFM: Discipline-Special Projects Analytical Track-Sample Collection at CT AES
FDA LFFM:CT AES 学科特殊项目分析跟踪样本收集
- 批准号:
10170741 - 财政年份:2020
- 资助金额:
$ 3万 - 项目类别: