Minipatch Learning for Selection, Stability, Inference, and Scalability
用于选择、稳定性、推理和可扩展性的小补丁学习
基本信息
- 批准号:2210837
- 负责人:
- 金额:$ 26.11万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2022
- 资助国家:美国
- 起止时间:2022-08-01 至 2025-07-31
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
Massive amounts of data are now collected by nearly every industry and academic discipline. Uncovering the hidden insights in such data holds the key to major scientific challenges such as understanding how the brain works, discovering mechanisms leading to diseases such as cancer and Alzheimer's disease, and combating climate change, among many others. But discovering key features and important relationships in complex and huge data poses major statistical and computational challenges. The investigator aims to develop new statistical machine learning approaches and theory for this task that break up huge data sets into small random subsets called minipatches to facilitate both faster computation and improved statistical efficiency. The new methods will be implemented in open-source software and applied to huge biomedical datasets in genomics and neuroscience. The project will provide undergraduate and graduate students training and professional development opportunities.Discovering key features and important relationships in complex and huge data commonly found in biomedicine poses not only major computational challenges but also critical statistical challenges. To tackle these challenges, the investigator plans to develop a new framework termed minipatch learning. Inspired by the successes of random forests, stability approaches in high-dimensional statistics, and stochastic optimization strategies, the investigator will build ensembles from many random tiny subsets of both observations and features or variables called minipatches. While ensemble learning strategies are commonly used in supervised machine learning, the investigator will use minipatch learning for the tasks of feature selection, model-agnostic inference for feature importance, and learning relationships amongst features through graphical models. The approach, which trains on very tiny subsets of the data, is expected to have dramatic computational and memory savings. The investigator aims to show both theoretically and empirically that such a strategy poses significant statistical advantages as well.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
现在几乎每个行业和学术学科都收集了大量的数据。揭示这些数据中隐藏的见解是重大科学挑战的关键,例如了解大脑如何工作,发现导致癌症和阿尔茨海默病等疾病的机制,以及应对气候变化等。但是,在复杂而庞大的数据中发现关键特征和重要关系,带来了重大的统计和计算挑战。研究人员的目标是为这项任务开发新的统计机器学习方法和理论,将庞大的数据集分解为称为minipatches的小的随机子集,以促进更快的计算和提高统计效率。新方法将在开源软件中实现,并应用于基因组学和神经科学的大型生物医学数据集。该项目将为本科生和研究生提供培训和专业发展的机会。在生物医学中常见的复杂和庞大的数据中发现关键特征和重要关系不仅带来了重大的计算挑战,而且还带来了关键的统计挑战。为了应对这些挑战,研究人员计划开发一个名为迷你手表学习的新框架。受随机森林、高维统计中的稳定性方法和随机优化策略的成功启发,研究人员将从许多随机的微小子集(观测值和特征或变量,称为minipatches)中构建集合。虽然集成学习策略通常用于有监督的机器学习,但研究人员将使用迷你补丁学习来完成特征选择,特征重要性的模型不可知推理以及通过图形模型学习特征之间的关系。该方法在非常小的数据子集上进行训练,预计将节省大量的计算和内存。该奖项反映了NSF的法定使命,并通过使用基金会的知识价值和更广泛的影响审查标准进行评估,被认为值得支持。
项目成果
期刊论文数量(1)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Genevera Allen其他文献
Breathe Easy, an automated respiratory data pipeline for waveform characteristic analysis
Breathe Easy,用于波形特征分析的自动化呼吸数据管道
- DOI:
- 发表时间:
2023 - 期刊:
- 影响因子:8.4
- 作者:
Savannah J. Lusk;Christopher Ward;Andersen Chang;Avery Twitchell‐Heyne;Shaun Fattig;Genevera Allen;Joanna Jankowsky;Russell Ray - 通讯作者:
Russell Ray
Extreme Graphical Models with Applications to Functional Neuronal Connectivity
极端图形模型及其在功能神经元连接中的应用
- DOI:
- 发表时间:
2021 - 期刊:
- 影响因子:0
- 作者:
Andersen Chang;Genevera Allen - 通讯作者:
Genevera Allen
Genevera Allen的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Genevera Allen', 18)}}的其他基金
CAREER: New Techniques for Statistical Learning and Multivariate Analysis
职业:统计学习和多元分析新技术
- 批准号:
1554821 - 财政年份:2016
- 资助金额:
$ 26.11万 - 项目类别:
Continuing Grant
Collaborative Research: Statistical Methods for Integrated Analysis of High-Throughput Biomedical Data
合作研究:高通量生物医学数据综合分析的统计方法
- 批准号:
1264058 - 财政年份:2013
- 资助金额:
$ 26.11万 - 项目类别:
Continuing Grant
Multivariate Methods for High-Dimensional Transposable Data
高维转置数据的多元方法
- 批准号:
1209017 - 财政年份:2012
- 资助金额:
$ 26.11万 - 项目类别:
Standard Grant
相似国自然基金
Scalable Learning and Optimization: High-dimensional Models and Online Decision-Making Strategies for Big Data Analysis
- 批准号:
- 批准年份:2024
- 资助金额:万元
- 项目类别:合作创新研究团队
Understanding structural evolution of galaxies with machine learning
- 批准号:n/a
- 批准年份:2022
- 资助金额:10.0 万元
- 项目类别:省市级项目
煤矿安全人机混合群智感知任务的约束动态多目标Q-learning进化分配
- 批准号:
- 批准年份:2022
- 资助金额:30 万元
- 项目类别:青年科学基金项目
基于领弹失效考量的智能弹药编队短时在线Q-learning协同控制机理
- 批准号:62003314
- 批准年份:2020
- 资助金额:24.0 万元
- 项目类别:青年科学基金项目
集成上下文张量分解的e-learning资源推荐方法研究
- 批准号:61902016
- 批准年份:2019
- 资助金额:24.0 万元
- 项目类别:青年科学基金项目
具有时序迁移能力的Spiking-Transfer learning (脉冲-迁移学习)方法研究
- 批准号:61806040
- 批准年份:2018
- 资助金额:20.0 万元
- 项目类别:青年科学基金项目
基于Deep-learning的三江源区冰川监测动态识别技术研究
- 批准号:51769027
- 批准年份:2017
- 资助金额:38.0 万元
- 项目类别:地区科学基金项目
具有时序处理能力的Spiking-Deep Learning(脉冲深度学习)方法研究
- 批准号:61573081
- 批准年份:2015
- 资助金额:64.0 万元
- 项目类别:面上项目
基于有向超图的大型个性化e-learning学习过程模型的自动生成与优化
- 批准号:61572533
- 批准年份:2015
- 资助金额:66.0 万元
- 项目类别:面上项目
E-Learning中学习者情感补偿方法的研究
- 批准号:61402392
- 批准年份:2014
- 资助金额:26.0 万元
- 项目类别:青年科学基金项目
相似海外基金
Leveraging Machine Learning to Examine Engineering Students Self-selection in Entrepreneurship Education Programs
利用机器学习检查工科学生在创业教育项目中的自我选择
- 批准号:
2321175 - 财政年份:2024
- 资助金额:
$ 26.11万 - 项目类别:
Standard Grant
Universal Model Selection Criteria for Scientific Machine Learning
科学机器学习的通用模型选择标准
- 批准号:
DE240100144 - 财政年份:2024
- 资助金额:
$ 26.11万 - 项目类别:
Discovery Early Career Researcher Award
NSFDEB-NERC: Machine learning tools to discover balancing selection in genomes from spatial and temporal autocorrelations
NSFDEB-NERC:机器学习工具,用于从空间和时间自相关中发现基因组中的平衡选择
- 批准号:
NE/Y003519/1 - 财政年份:2023
- 资助金额:
$ 26.11万 - 项目类别:
Research Grant
Knockoff Feature Selection Techniques for Robust Inference in Supervised and Unsupervised Learning
监督和无监督学习中鲁棒推理的仿冒特征选择技术
- 批准号:
2310955 - 财政年份:2023
- 资助金额:
$ 26.11万 - 项目类别:
Standard Grant
Application of machine learning to genomic selection of dairy cattle through improved feed efficiency complex prediction
通过提高饲料效率综合预测,将机器学习应用于奶牛基因组选择
- 批准号:
2887069 - 财政年份:2023
- 资助金额:
$ 26.11万 - 项目类别:
Studentship
NSFDEB-NERC: Machine learning tools to discover balancing selection in genomes from spatial and temporal autocorrelations
NSFDEB-NERC:机器学习工具,用于从空间和时间自相关中发现基因组中的平衡选择
- 批准号:
2302258 - 财政年份:2023
- 资助金额:
$ 26.11万 - 项目类别:
Standard Grant
Image-Based Stratification and Therapy Selection for Atrial Fibrillation Patients Using Deep Learning
使用深度学习对心房颤动患者进行基于图像的分层和治疗选择
- 批准号:
2886591 - 财政年份:2023
- 资助金额:
$ 26.11万 - 项目类别:
Studentship
Development and implementation of a small-scale and highly efficient genomic selection method using "look-ahead" based on reinforcement learning
基于强化学习的“前瞻”小规模高效基因组选择方法的开发和实施
- 批准号:
22H02306 - 财政年份:2022
- 资助金额:
$ 26.11万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
Dynamic ensemble selection for data streams and multi-view learning
数据流和多视图学习的动态集成选择
- 批准号:
RGPIN-2021-04130 - 财政年份:2022
- 资助金额:
$ 26.11万 - 项目类别:
Discovery Grants Program - Individual
III: Small: Deep Interactive Reinforcement Learning for Self-optimizing Feature Selection
III:小:用于自优化特征选择的深度交互式强化学习
- 批准号:
2152030 - 财政年份:2022
- 资助金额:
$ 26.11万 - 项目类别:
Standard Grant