Representation learning and exploration of data geometries

数据几何的表示学习和探索

基本信息

  • 批准号:
    RGPIN-2021-03267
  • 负责人:
  • 金额:
    $ 2.11万
  • 依托单位:
  • 依托单位国家:
    加拿大
  • 项目类别:
    Discovery Grants Program - Individual
  • 财政年份:
    2022
  • 资助国家:
    加拿大
  • 起止时间:
    2022-01-01 至 2023-12-31
  • 项目状态:
    已结题

项目摘要

In the past two decades, rapid technological advances have revolutionized the availability of big high dimensional data in virtually every field of science and technology. Modern data are being produced at increasingly large volumes, quantified by numerous measurements, and often collected in many batches or samples that encode nontrivial variations (e.g., between different observation settings, collection times, or collection technologies). Such availability of raw observational data provides potential for new discoveries at a level that was never possible before. However, it also introduces numerous data analysis challenges that require a new generation of machine learning tools to enable unsupervised exploration of data and enhance the ability of domain experts to extract new knowledge and insights from massive datasets, rather than automate their ability to annotate them. The proposed research program directly ties into the growing interest in exploratory data analysis tools that extract simplified data representations for inferring or uncovering emergent patterns, structures, and dynamics. A strong emphasis in these is on providing tractable, human-interpretable, representations that make data approachable for study, hypothesis generation, and further exploration by domain experts who are not necessarily computation oriented. Concretely, this proposal will focus on constructing such representations by leveraging tools from manifold learning, graph signal processing, and the recently emerging field of geometric deep learning. While numerous data-intensive fields are relevant and in need of such data exploration tools, the proposed research is expected to have immediate and direct impact on two application fields. First, single cell data analysis introduces exciting new prospects for understanding high resolution biological heterogeneity, but also gives rise to various challenges due to batch effects, high dimenstionality, and sparsity of the collected data. Furthermore, exploratory processing of single cell data often requires separation of intrinsic data geometry from data distribution as rare subpopulations and sparse transitions between meta-stable states are often of great interest in biomedical data analysis, but they would be lost by an analysis that focuses on the main distribution modes. Second, the study of latent representations in deep neural networks has recently gained popularity in order to understand their impressive machine learning capabilities. Indeed, as cascades of linear operations and relatively-simple nonlinearities, neural networks naturally provide task-oriented internal representations given by neuron activations in hidden layers. Here, exploratory data analysis can help understand the gradual information processing mechanisms that emerge as neural nets specialize on varied tasks and shed light on the effects of data distribution on the intrinsic structure of neuron activation spaces (e.g., activation manifolds).
在过去的二十年中,快速的技术进步已经彻底改变了几乎每个科学技术领域的大高维数据的可用性。现代数据的产生量越来越大,通过多次测量进行量化,并且通常以许多批次或样品收集,这些批次或样品包含重要的变化(例如,在不同的观察设置、收集时间或收集技术之间)。原始观测数据的这种可用性为新发现提供了前所未有的可能性。然而,它也引入了许多数据分析挑战,需要新一代机器学习工具来实现对数据的无监督探索,并增强领域专家从大量数据集中提取新知识和见解的能力,而不是自动化注释它们的能力。提出的研究计划直接与探索性数据分析工具的日益增长的兴趣联系在一起,这些工具可以提取简化的数据表示,以推断或揭示紧急模式、结构和动态。其中的重点是提供可处理的、人类可解释的表示,使数据易于研究、假设生成和领域专家(不一定是面向计算的)的进一步探索。具体地说,本提案将侧重于通过利用流形学习、图信号处理和最近出现的几何深度学习领域的工具来构建这样的表示。虽然许多数据密集型领域都是相关的,并且需要这种数据探索工具,但拟议的研究预计将对两个应用领域产生直接和直接的影响。首先,单细胞数据分析为理解高分辨率生物异质性带来了令人兴奋的新前景,但由于所收集数据的批量效应、高维性和稀疏性,也带来了各种挑战。此外,单细胞数据的探索性处理通常需要从数据分布中分离出固有的数据几何形状,因为罕见的亚种群和亚稳定状态之间的稀疏过渡通常是生物医学数据分析中非常感兴趣的,但它们会被关注主要分布模式的分析所忽略。其次,为了理解深度神经网络令人印象深刻的机器学习能力,对深度神经网络中潜在表征的研究最近得到了普及。事实上,作为线性操作和相对简单的非线性的级联,神经网络自然地提供由隐藏层中的神经元激活给出的面向任务的内部表示。在这里,探索性数据分析可以帮助理解逐渐出现的信息处理机制,因为神经网络专注于不同的任务,并阐明数据分布对神经元激活空间(例如,激活流形)的内在结构的影响。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Wolf, Guy其他文献

Multiscale PHATE identifies multimodal signatures of COVID-19.
  • DOI:
    10.1038/s41587-021-01186-x
  • 发表时间:
    2022-05
  • 期刊:
  • 影响因子:
    46.9
  • 作者:
    Kuchroo, Manik;Huang, Jessie;Wong, Patrick;Grenier, Jean-Christophe;Shung, Dennis;Tong, Alexander;Lucas, Carolina;Klein, Jon;Burkhardt, Daniel B.;Gigante, Scott;Godavarthi, Abhinav;Rieck, Bastian;Israelow, Benjamin;Simonov, Michael;Mao, Tianyang;Oh, Ji Eun;Silva, Julio;Takahashi, Takehiro;Odio, Camila D.;Casanovas-Massana, Arnau;Farhadian, Shelli;Dela Cruz, Charles S.;Ko, Albert I.;Hirn, Matthew J.;Wilson, F. Perry;Hussin, Julie G.;Wolf, Guy;Iwasaki, Akiko;Krishnaswamy, Smita
  • 通讯作者:
    Krishnaswamy, Smita
Cover-based bounds on the numerical rank of Gaussian kernels
Rigid Motion Model for Audio Source Separation
  • DOI:
    10.1109/tsp.2015.2508787
  • 发表时间:
    2016-04-01
  • 期刊:
  • 影响因子:
    5.4
  • 作者:
    Wolf, Guy;Mallat, Stephane;Shamma, Shihab
  • 通讯作者:
    Shamma, Shihab
EMBEDDING SIGNALS ON GRAPHS WITH UNBALANCED DIFFUSION EARTH MOVER'S DISTANCE.
Geometric wavelet scattering on graphs and manifolds
图和流形上的几何小波散射
  • DOI:
    10.1117/12.2529615
  • 发表时间:
    2019
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Gao, Feng;Hirn, Matthew;Perlmutter, Michael;Wolf, Guy
  • 通讯作者:
    Wolf, Guy

Wolf, Guy的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Wolf, Guy', 18)}}的其他基金

Representation learning and exploration of data geometries
数据几何的表示学习和探索
  • 批准号:
    DGDND-2021-03267
  • 财政年份:
    2022
  • 资助金额:
    $ 2.11万
  • 项目类别:
    DND/NSERC Discovery Grant Supplement
Representation learning and exploration of data geometries
数据几何的表示学习和探索
  • 批准号:
    RGPIN-2021-03267
  • 财政年份:
    2021
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Discovery Grants Program - Individual
Representation learning and exploration of data geometries
数据几何的表示学习和探索
  • 批准号:
    DGECR-2021-00275
  • 财政年份:
    2021
  • 资助金额:
    $ 2.11万
  • 项目类别:
    Discovery Launch Supplement
Representation learning and exploration of data geometries
数据几何的表示学习和探索
  • 批准号:
    DGDND-2021-03267
  • 财政年份:
    2021
  • 资助金额:
    $ 2.11万
  • 项目类别:
    DND/NSERC Discovery Grant Supplement

相似国自然基金

Scalable Learning and Optimization: High-dimensional Models and Online Decision-Making Strategies for Big Data Analysis
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    万元
  • 项目类别:
    合作创新研究团队
Understanding structural evolution of galaxies with machine learning
  • 批准号:
    n/a
  • 批准年份:
    2022
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
煤矿安全人机混合群智感知任务的约束动态多目标Q-learning进化分配
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于领弹失效考量的智能弹药编队短时在线Q-learning协同控制机理
  • 批准号:
    62003314
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
集成上下文张量分解的e-learning资源推荐方法研究
  • 批准号:
    61902016
  • 批准年份:
    2019
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
儿童音乐能力发展对语言与社会认知能力及脑发育的影响
  • 批准号:
    31971003
  • 批准年份:
    2019
  • 资助金额:
    58.0 万元
  • 项目类别:
    面上项目
具有时序迁移能力的Spiking-Transfer learning (脉冲-迁移学习)方法研究
  • 批准号:
    61806040
  • 批准年份:
    2018
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
基于Deep-learning的三江源区冰川监测动态识别技术研究
  • 批准号:
    51769027
  • 批准年份:
    2017
  • 资助金额:
    38.0 万元
  • 项目类别:
    地区科学基金项目
多场景网络学习中基于行为-情感-主题联合建模的学习者兴趣挖掘关键技术研究
  • 批准号:
    61702207
  • 批准年份:
    2017
  • 资助金额:
    21.0 万元
  • 项目类别:
    青年科学基金项目
基于异构医学影像数据的深度挖掘技术及中枢神经系统重大疾病的精准预测
  • 批准号:
    61672236
  • 批准年份:
    2016
  • 资助金额:
    64.0 万元
  • 项目类别:
    面上项目

相似海外基金

CBESS: a pipeline program to increase linguistic and geographic diversity in STEM + health
CBESS:一项旨在增加 STEM 健康领域语言和地理多样性的管道计划
  • 批准号:
    10665432
  • 财政年份:
    2023
  • 资助金额:
    $ 2.11万
  • 项目类别:
High-performance deep neural networks for medical image analysis
用于医学图像分析的高性能深度神经网络
  • 批准号:
    10723553
  • 财政年份:
    2023
  • 资助金额:
    $ 2.11万
  • 项目类别:
Scientific and Public Outreach of Cell Type Taxonomies (SPOCTT) Initiative
细胞类型分类学的科学和公众推广 (SPOCTT) 计划
  • 批准号:
    10724950
  • 财政年份:
    2023
  • 资助金额:
    $ 2.11万
  • 项目类别:
Exploratory Analysis Tools for Developmental Studies of Brain Microstructure with Diffusion MRI
利用扩散 MRI 进行脑微结构发育研究的探索性分析工具
  • 批准号:
    10645844
  • 财政年份:
    2023
  • 资助金额:
    $ 2.11万
  • 项目类别:
Signature Research Project
签名研究项目
  • 批准号:
    10577120
  • 财政年份:
    2023
  • 资助金额:
    $ 2.11万
  • 项目类别:
Visual Analytics for Exploration and Hypothesis Generation Using Highly MultiplexedSpatial Data of Tissues and Tumors
使用组织和肿瘤的高度多重空间数据进行探索和假设生成的可视化分析
  • 批准号:
    10743329
  • 财政年份:
    2023
  • 资助金额:
    $ 2.11万
  • 项目类别:
IMAT-ITCR Collaboration: Combining FIBI and topological data analysis: Synergistic approaches for tumor structural microenvironment exploration
IMAT-ITCR 合作:结合 FIBI 和拓扑数据分析:肿瘤结构微环境探索的协同方法
  • 批准号:
    10884028
  • 财政年份:
    2023
  • 资助金额:
    $ 2.11万
  • 项目类别:
Self-driving laboratories for autonomous exploration of protein sequence space
用于自主探索蛋白质序列空间的自动驾驶实验室
  • 批准号:
    10717598
  • 财政年份:
    2023
  • 资助金额:
    $ 2.11万
  • 项目类别:
Neurodevelopment of exploration and alcohol problems in adolescence
青春期探索和酒精问题的神经发育
  • 批准号:
    10628964
  • 财政年份:
    2023
  • 资助金额:
    $ 2.11万
  • 项目类别:
Clinical and Translational Science Workforce Development through a Statewide Community College Partnership
通过全州社区学院合作伙伴关系进行临床和转化科学劳动力发展
  • 批准号:
    10622130
  • 财政年份:
    2023
  • 资助金额:
    $ 2.11万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了