CAREER: Learning and Selecting Low-Dimensional Models from Incomplete Data

职业:从不完整数据中学习和选择低维模型

基本信息

  • 批准号:
    2239479
  • 负责人:
  • 金额:
    $ 60万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Continuing Grant
  • 财政年份:
    2023
  • 资助国家:
    美国
  • 起止时间:
    2023-02-01 至 2028-01-31
  • 项目状态:
    未结题

项目摘要

Big datasets often have an underlying structure. Identifying such a structure allows predicting outcomes of interest based on a few variables, for example, predicting the effectiveness of a drug or vaccine based on the drug’s molecular structure. There exists a wide variety of methods to learn the underlying structure of a dataset and make accurate predictions. However, when data is severely incomplete, as is the case in many modern datasets, existing methods consistently fail to identify the correct structure of the data. More alarmingly, the existing methodology has no means to verify whether the structure found is correct or not. In other words, whenever data is incomplete, the structure learned by any existing method cannot be trusted and may result in undetectable, arbitrarily wrong predictions. This project will (i) develop methods to learn structures specifically tailored to handle missing data and (ii) develop a theory to verify whether the structure learned by any method (including existing ones) is correct or not. In turn, this research will enable scientists to learn the structures governing their incomplete datasets in a plethora of applications to the benefit of society, including drug discovery, metagenomics, and opportunistic screening. Furthermore, this project will support outreach activities to engage underrepresented minorities in machine learning, both locally and nationally, through hands-on activities, social media campaigns, symposia, courses, and mentoring.The technical aims of the project are divided into three main thrusts. The first thrust will investigate a new approach that maps incomplete data to the Grassmann manifold of subspaces, wherein the data’s underlying structure can be revealed by solving a constrained optimization over the Schubert varieties defined by the observed data. The second thrust will develop model-selection criteria to determine the structure that best fits an incomplete dataset, among a collection of candidate structures. These criteria will be generalizations of the Akaike and Bayes information criteria and the minimum effective dimension, adapted to account for missing data. These criteria will be complemented with a goodness-of-fit test to determine if the winning structure is, indeed, a good fit for the data. These are non-trivial tasks that require special considerations in light of missing data, which can consistently cause spurious structures fit arbitrarily large datasets with the same degree of error as the correct structures. Ultimately, the results from this thrust will allow determining whether the predictions stemming from a specific structure can be trusted or not. The third thrust will implement our methodology in open-source, easy-to-use software to benefit of the broader scientific community and test it on datasets related to our ongoing interdisciplinary collaborations in metagenomics, single-cell sequencing, sonotypes classification, bacteria classification, drug discovery, and clinical opportunistic screening.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
大数据集通常具有底层结构。识别这种结构可以根据一些变量预测感兴趣的结果,例如根据药物的分子结构预测药物或疫苗的有效性。有多种方法可以学习数据集的底层结构并做出准确的预测。然而,当数据严重不完整时,就像许多现代数据集中的情况一样,现有方法始终无法识别数据的正确结构。更令人担忧的是,现有的方法无法验证所发现的结构是否正确。换句话说,只要数据不完整,任何现有方法学习到的结构都不可信,并且可能导致无法检测的、任意错误的预测。该项目将(i)开发学习专门用于处理缺失数据的结构的方法,以及(ii)开发一种理论来验证通过任何方法(包括现有方法)学习的结构是否正确。反过来,这项研究将使科学家能够在众多造福社会的应用中了解管理不完整数据集的结构,包括药物发现、宏基因组学和机会性筛选。此外,该项目还将支持外展活动,通过实践活动、社交媒体活动、研讨会、课程和指导,让当地和全国范围内代表性不足的少数群体参与机器学习。该项目的技术目标分为三个主要目标。第一个主旨将研究一种将不完整数据映射到格拉斯曼流形子空间的新方法,其中可以通过解决由观测数据定义的舒伯特簇的约束优化来揭示数据的底层结构。第二个重点将制定模型选择标准,以确定在候选结构集合中最适合不完整数据集的结构。这些标准将是 Akaike 和贝叶斯信息标准和最小有效维度的概括,适用于解决缺失数据。这些标准将辅以拟合优度检验,以确定获胜结构是否确实适合数据。这些都是重要的任务,需要根据丢失的数据进行特殊考虑,这可能始终导致虚假结构适合任意大的数据集,并且与正确结构具有相同程度的错误。最终,这一推力的结果将有助于确定源自特定结构的预测是否可信。第三个重点将在开源、易于使用的软件中实施我们的方法,以使更广泛的科学界受益,并在与我们在宏基因组学、单细胞测序、声型分类、细菌分类、药物发现和临床机会筛选方面正在进行的跨学科合作相关的数据集上进行测试。该奖项反映了 NSF 的法定使命,并通过使用基金会的评估进行评估,被认为值得支持。 智力价值和更广泛的影响审查标准。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Daniel Pimentel-Alarcon其他文献

Daniel Pimentel-Alarcon的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

相似国自然基金

Scalable Learning and Optimization: High-dimensional Models and Online Decision-Making Strategies for Big Data Analysis
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    万元
  • 项目类别:
    合作创新研究团队
Understanding structural evolution of galaxies with machine learning
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
煤矿安全人机混合群智感知任务的约束动态多目标Q-learning进化分配
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于领弹失效考量的智能弹药编队短时在线Q-learning协同控制机理
  • 批准号:
    62003314
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
集成上下文张量分解的e-learning资源推荐方法研究
  • 批准号:
    61902016
  • 批准年份:
    2019
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
具有时序迁移能力的Spiking-Transfer learning (脉冲-迁移学习)方法研究
  • 批准号:
    61806040
  • 批准年份:
    2018
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
基于Deep-learning的三江源区冰川监测动态识别技术研究
  • 批准号:
    51769027
  • 批准年份:
    2017
  • 资助金额:
    38.0 万元
  • 项目类别:
    地区科学基金项目
具有时序处理能力的Spiking-Deep Learning(脉冲深度学习)方法研究
  • 批准号:
    61573081
  • 批准年份:
    2015
  • 资助金额:
    64.0 万元
  • 项目类别:
    面上项目
基于有向超图的大型个性化e-learning学习过程模型的自动生成与优化
  • 批准号:
    61572533
  • 批准年份:
    2015
  • 资助金额:
    66.0 万元
  • 项目类别:
    面上项目
E-Learning中学习者情感补偿方法的研究
  • 批准号:
    61402392
  • 批准年份:
    2014
  • 资助金额:
    26.0 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Understanding the Impact of Outdoor Science and Environmental Learning Experiences Through Community-Driven Outcomes
通过社区驱动的成果了解户外科学和环境学习体验的影响
  • 批准号:
    2314075
  • 财政年份:
    2024
  • 资助金额:
    $ 60万
  • 项目类别:
    Continuing Grant
Integrating Self-Regulated Learning Into STEM Courses: Maximizing Learning Outcomes With The Success Through Self-Regulated Learning Framework
将自我调节学习融入 STEM 课程:通过自我调节学习框架取得成功,最大化学习成果
  • 批准号:
    2337176
  • 财政年份:
    2024
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
CAREER: Blessing of Nonconvexity in Machine Learning - Landscape Analysis and Efficient Algorithms
职业:机器学习中非凸性的祝福 - 景观分析和高效算法
  • 批准号:
    2337776
  • 财政年份:
    2024
  • 资助金额:
    $ 60万
  • 项目类别:
    Continuing Grant
CAREER: Closing the Loop between Learning and Communication for Assistive Robot Arms
职业:关闭辅助机器人手臂的学习和交流之间的循环
  • 批准号:
    2337884
  • 财政年份:
    2024
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
CAREER: Adaptive Deep Learning Systems Towards Edge Intelligence
职业:迈向边缘智能的自适应深度学习系统
  • 批准号:
    2338512
  • 财政年份:
    2024
  • 资助金额:
    $ 60万
  • 项目类别:
    Continuing Grant
CAREER: Data-Enabled Neural Multi-Step Predictive Control (DeMuSPc): a Learning-Based Predictive and Adaptive Control Approach for Complex Nonlinear Systems
职业:数据支持的神经多步预测控制(DeMuSPc):一种用于复杂非线性系统的基于学习的预测和自适应控制方法
  • 批准号:
    2338749
  • 财政年份:
    2024
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
CAREER: Structured Minimax Optimization: Theory, Algorithms, and Applications in Robust Learning
职业:结构化极小极大优化:稳健学习中的理论、算法和应用
  • 批准号:
    2338846
  • 财政年份:
    2024
  • 资助金额:
    $ 60万
  • 项目类别:
    Continuing Grant
RII Track-4:NSF: HEAL: Heterogeneity-aware Efficient and Adaptive Learning at Clusters and Edges
RII Track-4:NSF:HEAL:集群和边缘的异质性感知高效自适应学习
  • 批准号:
    2327452
  • 财政年份:
    2024
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
RII Track-4:NSF: Physics-Informed Machine Learning with Organ-on-a-Chip Data for an In-Depth Understanding of Disease Progression and Drug Delivery Dynamics
RII Track-4:NSF:利用器官芯片数据进行物理信息机器学习,深入了解疾病进展和药物输送动力学
  • 批准号:
    2327473
  • 财政年份:
    2024
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
Collaborative Research: NCS-FR: Individual variability in auditory learning characterized using multi-scale and multi-modal physiology and neuromodulation
合作研究:NCS-FR:利用多尺度、多模式生理学和神经调节表征听觉学习的个体差异
  • 批准号:
    2409652
  • 财政年份:
    2024
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了