CIF: Small: Learning Low-Dimensional Representations with Heteroscedastic Data Sources

CIF:小:使用异方差数据源学习低维表示

基本信息

项目摘要

As data-collection efforts continue to grow, so does heterogeneity in data. Machine-learning methods typically assume that data come from a single source or uniform instrumentation with noise characteristics that are the same for every data point. This project will address questions fundamental to learning low-dimensional data representations with heteroscedastic data, wherein samples from different sources have additive noise of different variances. It is well-known that classical linear dimensionality-reduction methods such as principal component analysis (PCA) are sensitive to outliers, so high-variance noise will degrade representations learned by PCA. However, robust methods that simply reject outliers are suboptimal if, indeed, the data do have some signal, even if it is buried in noise. The premise of this project therefore is to use approaches that learn the best way to incorporate the contribution of every different data source, no matter how high- or low-quality, to improve the overall learned representation. Many applications will benefit from the work, including medical imaging, environmental monitoring, astronomical data analysis, computer vision, and bioinformatics. The investigators' prior work in this area indicates that when learning is driven by heterogeneous and heteroscedastic sources – for example, in medical imaging, using data from multiple scanners, or with varying radiation levels – a better model will be learned by actively considering and modeling the heterogeneity. How to optimize learning in the face of such heterogeneity has been so far relatively unstudied, and this research aims to fill that gap. The technical contributions will be in three directions. First, the team of researchers will study open questions regarding how heterogeneity in data affects PCA, including establishing the required sample complexity for learning heteroscedastic models and assessing the optimization landscape of heteroscedastic PCA problems. Second, the team will extend heteroscedastic PCA methods and theory to consider union-of-subspaces models, dictionary learning models, and transform learning models. Third, the investigators will consider how nonlinear low-dimensional embedding methods are affected by heteroscedasticity in the data. The work will focus on distance-based methods and develop a foundational understanding of using distances in machine learning with heterogeneous data sources.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
随着数据收集工作的不断增加,数据的异质性也在增加。机器学习方法通常假设数据来自单一来源或具有每个数据点相同噪声特征的统一仪器。该项目将解决使用异方差数据学习低维数据表示的基本问题,其中来自不同来源的样本具有不同方差的加性噪声。众所周知,经典的线性降维方法如主成分分析(PCA)对异常值非常敏感,因此高方差噪声会降低PCA学习到的表示。然而,如果数据确实有一些信号,即使它被淹没在噪声中,那么简单地拒绝异常值的鲁棒方法是次优的。因此,这个项目的前提是使用学习最好的方法来整合每个不同数据源的贡献,无论质量是高是低,以提高整体学习表示。许多应用将受益于这项工作,包括医学成像、环境监测、天文数据分析、计算机视觉和生物信息学。研究人员先前在这一领域的工作表明,当学习是由异质和异方差的来源驱动时——例如,在医学成像中,使用来自多个扫描仪的数据,或具有不同的辐射水平——通过积极考虑和建模异质性,将学习到更好的模型。面对这种异质性,如何优化学习迄今为止还没有研究,本研究旨在填补这一空白。技术贡献将集中在三个方面。首先,研究团队将研究数据异质性如何影响主成分分析的开放性问题,包括建立学习异方差模型所需的样本复杂性和评估异方差主成分分析问题的优化前景。其次,该团队将扩展异方差PCA方法和理论,以考虑子空间的并集模型、字典学习模型和转换学习模型。第三,研究人员将考虑非线性低维嵌入方法如何受到数据异方差的影响。这项工作将侧重于基于距离的方法,并对在异构数据源的机器学习中使用距离有一个基本的理解。该奖项反映了美国国家科学基金会的法定使命,并通过使用基金会的知识价值和更广泛的影响审查标准进行评估,被认为值得支持。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Laura Balzano其他文献

Laura Balzano的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Laura Balzano', 18)}}的其他基金

CIF: CAREER: Robust, Interpretable, and Efficient Unsupervised Learning with K-set Clustering
CIF:职业:使用 K 集聚类进行稳健、可解释且高效的无监督学习
  • 批准号:
    1845076
  • 财政年份:
    2019
  • 资助金额:
    $ 60万
  • 项目类别:
    Continuing Grant
BRIGE: Simultaneous Modeling and Calibration for Environmental Sensor Data
BRIGE:环境传感器数据的同步建模和校准
  • 批准号:
    1342121
  • 财政年份:
    2013
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant

相似国自然基金

昼夜节律性small RNA在血斑形成时间推断中的法医学应用研究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
tRNA-derived small RNA上调YBX1/CCL5通路参与硼替佐米诱导慢性疼痛的机制研究
  • 批准号:
    n/a
  • 批准年份:
    2022
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
Small RNA调控I-F型CRISPR-Cas适应性免疫性的应答及分子机制
  • 批准号:
    32000033
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
Small RNAs调控解淀粉芽胞杆菌FZB42生防功能的机制研究
  • 批准号:
    31972324
  • 批准年份:
    2019
  • 资助金额:
    58.0 万元
  • 项目类别:
    面上项目
变异链球菌small RNAs连接LuxS密度感应与生物膜形成的机制研究
  • 批准号:
    81900988
  • 批准年份:
    2019
  • 资助金额:
    21.0 万元
  • 项目类别:
    青年科学基金项目
肠道细菌关键small RNAs在克罗恩病发生发展中的功能和作用机制
  • 批准号:
    31870821
  • 批准年份:
    2018
  • 资助金额:
    56.0 万元
  • 项目类别:
    面上项目
基于small RNA 测序技术解析鸽分泌鸽乳的分子机制
  • 批准号:
    31802058
  • 批准年份:
    2018
  • 资助金额:
    26.0 万元
  • 项目类别:
    青年科学基金项目
Small RNA介导的DNA甲基化调控的水稻草矮病毒致病机制
  • 批准号:
    31772128
  • 批准年份:
    2017
  • 资助金额:
    60.0 万元
  • 项目类别:
    面上项目
基于small RNA-seq的针灸治疗桥本甲状腺炎的免疫调控机制研究
  • 批准号:
    81704176
  • 批准年份:
    2017
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
水稻OsSGS3与OsHEN1调控small RNAs合成及其对抗病性的调节
  • 批准号:
    91640114
  • 批准年份:
    2016
  • 资助金额:
    85.0 万元
  • 项目类别:
    重大研究计划

相似海外基金

Collaborative Research: CIF: Small: Mathematical and Algorithmic Foundations of Multi-Task Learning
协作研究:CIF:小型:多任务学习的数学和算法基础
  • 批准号:
    2343599
  • 财政年份:
    2024
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
Collaborative Research: CIF: Small: Mathematical and Algorithmic Foundations of Multi-Task Learning
协作研究:CIF:小型:多任务学习的数学和算法基础
  • 批准号:
    2343600
  • 财政年份:
    2024
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
CIF: Small: Signal Processing and Learning for NOMA Millimeter-Wave Massive MIMO Systems
CIF:小型:NOMA 毫米波大规模 MIMO 系统的信号处理和学习
  • 批准号:
    2413622
  • 财政年份:
    2024
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
CIF: Small: Efficient and Secure Federated Structure Learning from Bad Data
CIF:小型:高效、安全的联邦结构从不良数据中学习
  • 批准号:
    2341359
  • 财政年份:
    2024
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
Collaborative Research: CIF: Small: Designing Plotkin Transform Codes via Machine Learning
协作研究:CIF:小型:通过机器学习设计 Plotkin 转换代码
  • 批准号:
    2312753
  • 财政年份:
    2023
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
CIF: Small: An Algebraic, Convex, and Scalable Framework for Kernel Learning with Activation Functions
CIF:小型:具有激活函数的核学习的代数、凸性和可扩展框架
  • 批准号:
    2323532
  • 财政年份:
    2023
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
Collaborative Research: CIF: Small: Theory for Learning Lossless and Lossy Coding
协作研究:CIF:小型:学习无损和有损编码的理论
  • 批准号:
    2324396
  • 财政年份:
    2023
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
CIF: SMALL: Theoretical Foundations of Partially Observable Reinforcement Learning: Minimax Sample Complexity and Provably Efficient Algorithms
CIF:SMALL:部分可观察强化学习的理论基础:最小最大样本复杂性和可证明有效的算法
  • 批准号:
    2315725
  • 财政年份:
    2023
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
CIF: Small: Inverse Reinforcement Learning for Cognitive Sensing
CIF:小:认知感知的逆强化学习
  • 批准号:
    2312198
  • 财政年份:
    2023
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
Collaborative Research: CIF: Small: Designing Plotkin Transform Codes via Machine Learning
协作研究:CIF:小型:通过机器学习设计 Plotkin 转换代码
  • 批准号:
    2312752
  • 财政年份:
    2023
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了