CAREER: Algorithms for understanding data

职业:理解数据的算法

基本信息

  • 批准号:
    1351108
  • 负责人:
  • 金额:
    $ 50万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2014
  • 资助国家:
    美国
  • 起止时间:
    2014-07-01 至 2019-06-30
  • 项目状态:
    已结题

项目摘要

Given samples from some unknown distribution, what can one infer about the underlying distribution, and how efficiently can these inferences be made?  In many of the most fundamental settings, our understanding of the computational and information theoretic possibilities and barriers is still startlingly poor.  This project tackles two broad research objectives: developing efficient algorithms for probing data, and understanding how to efficiently estimate properties of distributions.  The first line of research seeks to understand which questions about a dataset can be answered extremely efficiently, requiring computational resources (time, or memory) that are sublinear in the size of the dataset or distribution.  The second research objective is to understand the minimal amount of information necessary to ascertain, with high probability, whether or not a distribution or dataset possesses a given property.  In the context of statistical property estimation, this problem asks how few samples are needed to estimate the property in question to a desired accuracy, with high probability.  This research pursues both new estimation algorithms, and new information theoretic tools and lower bounds.With vast and important datasets emerging across many disciplines, from genetic, biological, and medical databases, to databases documenting our economic and social behaviors, the challenge of how to make sense of them has particular immediate relevance and has rapidly become the bottleneck in scientific understanding.   The specific problems investigated in this project arise in the analysis of these datasets; algorithmic advances on these problems have the potential to very quickly be adopted and transform ongoing data analysis efforts.   Beyond the immediate implications for the data sciences, these questions are extremely basic and foundational. As such, new techniques, perspectives, and insights gleaned from their study are likely to have broad implications for other problems throughout computer science, statistics, information theory, and the data sciences.
给定一些未知分布的样本,人们可以推断出潜在的分布是什么,这些推断的效率如何? 在许多最基本的环境中,我们对计算和信息理论的可能性和障碍的理解仍然非常贫乏。 该项目解决了两个广泛的研究目标:开发用于探测数据的有效算法,以及了解如何有效地估计分布的属性。 第一条研究路线旨在了解关于数据集的哪些问题可以非常有效地回答,需要在数据集或分布的大小上呈次线性的计算资源(时间或内存)。 第二个研究目标是了解以高概率确定分布或数据集是否具有给定属性所需的最小信息量。 在统计属性估计的上下文中,该问题询问需要多少样本来以高概率估计所讨论的属性以达到期望的精度。 这项研究追求新的估计算法,新的信息理论工具和下界。随着大量重要的数据集出现在许多学科,从遗传学,生物学和医学数据库,到记录我们的经济和社会行为的数据库,如何理解它们的挑战具有特别的直接相关性,并迅速成为科学理解的瓶颈。 本项目中调查的具体问题出现在这些数据集的分析中;这些问题的算法进步有可能很快被采用并改变正在进行的数据分析工作。 除了对数据科学的直接影响之外,这些问题也是极其基本和基础的。因此,从他们的研究中收集到的新技术、观点和见解可能对整个计算机科学、统计学、信息论和数据科学中的其他问题产生广泛的影响。

项目成果

期刊论文数量(1)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Spectrum estimation from samples
样本的频谱估计
  • DOI:
    10.1214/16-aos1525
  • 发表时间:
    2017
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Kong, Weihao;Valiant, Gregory
  • 通讯作者:
    Valiant, Gregory
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Gregory Valiant其他文献

Testing with Non-identically Distributed Samples
使用不同分布的样本进行测试
  • DOI:
    10.48550/arxiv.2311.11194
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Shivam Garg;Chirag Pabbaraju;Kirankumar Shiragur;Gregory Valiant
  • 通讯作者:
    Gregory Valiant
Near-Optimal Mean Estimation with Unknown, Heteroskedastic Variances
具有未知异方差方差的近最优均值估计
Matrix Multiplication in Quadratic Time and Energy? Towards a Fine-Grained Energy-Centric Church-Turing Thesis
二次时间和能量的矩阵乘法?
  • DOI:
    10.48550/arxiv.2311.16342
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Gregory Valiant
  • 通讯作者:
    Gregory Valiant

Gregory Valiant的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Gregory Valiant', 18)}}的其他基金

AF: Small: Memory Bounded Optimization and Learning
AF:小:内存限制优化和学习
  • 批准号:
    2341890
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
AF: Small: Robust and Secure Learning
AF:小型:稳健且安全的学习
  • 批准号:
    1813049
  • 财政年份:
    2018
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
AF:Medium:Collaborative Research:Estimation, Learning, and Memory: The Quest for Statistically Optimal Algorithms
AF:中:协作研究:估计、学习和记忆:追求统计最优算法
  • 批准号:
    1704417
  • 财政年份:
    2017
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant

相似海外基金

ATD:Understanding Adversarial Examples in Neural Network: Theory and Algorithms
ATD:理解神经网络中的对抗性例子:理论和算法
  • 批准号:
    2318926
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Understanding the transmission dynamics of norovirus with microbial data in wastewater and machine learning algorithms
利用废水中的微生物数据和机器学习算法了解诺如病毒的传播动力学
  • 批准号:
    22KJ2358
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
Integrative deep learning algorithms for understanding protein sequence-structure-function relationships: representation, prediction, and discovery
用于理解蛋白质序列-结构-功能关系的集成深度学习算法:表示、预测和发现
  • 批准号:
    10712082
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
Understanding and Improving Search-Based Algorithms for Neural Sequence Generation
理解和改进基于搜索的神经序列生成算法
  • 批准号:
    RGPIN-2022-04154
  • 财政年份:
    2022
  • 资助金额:
    $ 50万
  • 项目类别:
    Discovery Grants Program - Individual
Advancing understanding of the evolution of key bacterial and fungal genes in microbial communities through metagenomic assembly optimisation and context-aware graph algorithms
通过宏基因组组装优化和上下文感知图算法加深对微生物群落中关键细菌和真菌基因进化的理解
  • 批准号:
    RGPIN-2022-03341
  • 财政年份:
    2022
  • 资助金额:
    $ 50万
  • 项目类别:
    Discovery Grants Program - Individual
Developing new algorithms and concepts towards understanding protein folding, misfolding, and aggregation
开发新的算法和概念来理解蛋白质折叠、错误折叠和聚集
  • 批准号:
    RGPIN-2019-03958
  • 财政年份:
    2022
  • 资助金额:
    $ 50万
  • 项目类别:
    Discovery Grants Program - Individual
Understanding and Improving Search-Based Algorithms for Neural Sequence Generation
理解和改进基于搜索的神经序列生成算法
  • 批准号:
    DGECR-2022-00393
  • 财政年份:
    2022
  • 资助金额:
    $ 50万
  • 项目类别:
    Discovery Launch Supplement
Advancing understanding of the evolution of key bacterial and fungal genes in microbial communities through metagenomic assembly optimisation and context-aware graph algorithms
通过宏基因组组装优化和上下文感知图算法加深对微生物群落中关键细菌和真菌基因进化的理解
  • 批准号:
    DGECR-2022-00327
  • 财政年份:
    2022
  • 资助金额:
    $ 50万
  • 项目类别:
    Discovery Launch Supplement
Understanding quantum advantage via classical simulation algorithms for quantum circuits
通过量子电路的经典模拟算法了解量子优势
  • 批准号:
    578636-2022
  • 财政年份:
    2022
  • 资助金额:
    $ 50万
  • 项目类别:
    Alliance Grants
Developing new algorithms and concepts towards understanding protein folding, misfolding, and aggregation
开发新的算法和概念来理解蛋白质折叠、错误折叠和聚集
  • 批准号:
    RGPIN-2019-03958
  • 财政年份:
    2021
  • 资助金额:
    $ 50万
  • 项目类别:
    Discovery Grants Program - Individual
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了