BIGDATA: Mid-Scale: DA: Analytical Approaches to Massive Data Computation with Applications to Genomics
BIGDATA:中型:DA:海量数据计算的分析方法及其在基因组学中的应用
基本信息
- 批准号:1247581
- 负责人:
- 金额:$ 156.67万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2012
- 资助国家:美国
- 起止时间:2012-10-01 至 2018-09-30
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
The goal of this project is to design and test mathematically well-founded algorithmic and statistical techniques for analyzing large scale, heterogeneous and noisy data. The proposed research is transformative in its emphasis on rigorous analytical evaluation of algorithms' performance and statistical measures of output uncertainty, in contrast to the primarily heuristic approaches currently used in data mining and machine learning. Any progress in that direction will have significant contribution to the reliability and scientific impact of massive data analysis. This project is motivated by the challenges in analyzing molecular biology data. Molecular biology provides an excellent source of data for testing advanced data analysis techniques: specifically, DNA/RNA sequence data repositories are growing at a super-exponential rate. The data is typically large and noisy, and in some cases includes both genotype and phenotype features that permits experimental validation of the analysis. However, the methods and techniques developed in this project will be broadly applicable to other scientific communities that process massive multi-variant data sets. The major technical goals of the project include: (1) Design efficient algorithms that provide guarantees on the output when the data comes from independent random samples from an unknown distribution. (2) Develop techniques for estimating the minimum number of samples required to test hypothesis of varying complexity in large datasets, building on techniques in computational statistics. (3) Design algorithms to analyze data on graphs that represent interactions between samples or features in the dataset. These data may be static (e.g. mutations on interacting genes represented by a protein interaction network) or dynamic (e.g. information dissemination on a social network).This project will advocate a responsible approach to data analysis, based on well-founded mathematical and statistical concepts. The capacity building activities of the project include: (1) Creation and dissemination of algorithms and software that implement rigorous computational and statistical approaches to big data analysis. (2) Educational initiatives at the graduate and undergraduate level to build a bigger workforce of data scientists with the appropriate foundational skills both to apply analytical tools to existing datasets and to develop new approaches to future datasets. The proposed work will be tested on extensive cancer genome data, contributing to health IT, one of the National Priority Domain Areas.
该项目的目标是设计和测试数学上建立良好的算法和统计技术,用于分析大规模,异构和嘈杂的数据。与目前在数据挖掘和机器学习中使用的主要启发式方法相比,拟议的研究在强调对算法性能的严格分析评估和输出不确定性的统计度量方面具有变革性。这方面的任何进展都将对大规模数据分析的可靠性和科学影响做出重大贡献。这个项目的动机是在分析分子生物学数据的挑战。分子生物学为测试先进的数据分析技术提供了极好的数据来源:具体来说,DNA/RNA序列数据存储库正以超指数速度增长。数据通常是大而嘈杂的,在某些情况下包括基因型和表型特征,允许实验验证分析。然而,在这个项目中开发的方法和技术将广泛适用于处理大量多变量数据集的其他科学界。该项目的主要技术目标包括:(1)设计有效的算法,当数据来自未知分布的独立随机样本时,为输出提供保证。(2)在计算统计学技术的基础上,开发估算在大型数据集中检验不同复杂性假设所需的最小样本数量的技术。(3)设计算法,在图上分析数据,图上表示数据集中样本或特征之间的相互作用。这些数据可能是静态的(例如,由蛋白质相互作用网络表示的相互作用基因的突变),也可能是动态的(例如,在社交网络上的信息传播)。该项目将提倡以有充分根据的数学和统计概念为基础的负责任的数据分析方法。该项目的能力建设活动包括:(1)创建和传播算法和软件,这些算法和软件采用严格的计算和统计方法进行大数据分析。(2)在研究生和本科生层面开展教育活动,以建立更大的数据科学家队伍,这些数据科学家具备适当的基础技能,既可以将分析工具应用于现有数据集,又可以开发处理未来数据集的新方法。拟议的工作将在广泛的癌症基因组数据上进行测试,为卫生IT(国家优先领域之一)做出贡献。
项目成果
期刊论文数量(1)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
On the Complexity of Anonymous Communication Through Public Networks
论公共网络匿名通信的复杂性
- DOI:
- 发表时间:2021
- 期刊:
- 影响因子:0
- 作者:Ando, Megumi;Lysynskaya, Anna: Upfal
- 通讯作者:Lysynskaya, Anna: Upfal
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Eli Upfal其他文献
Brain Functional Connectivity Estimation Utilizing Diffusion Kernels on a Structural Connectivity Graph
利用结构连接图上的扩散核进行大脑功能连接估计
- DOI:
- 发表时间:
2021 - 期刊:
- 影响因子:0
- 作者:
Nathan Tung;J. Sanes;Eli Upfal;A. Eloyan - 通讯作者:
A. Eloyan
Bruisable Onions: Anonymous Communication in the Asynchronous Model
碎洋葱:异步模型中的匿名通信
- DOI:
- 发表时间:
2024 - 期刊:
- 影响因子:0
- 作者:
Megumi Ando;Anna Lysyanskaya;Eli Upfal - 通讯作者:
Eli Upfal
De Novo Discovery of Mutated Driver Pathways in Cancer Material Supplemental Related Content
从头发现癌症材料中突变的驱动通路材料补充相关内容
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
Fabio Vandin;Eli Upfal;Benjamin J. Raphael;F. Hormozdiari;Iman Hajirasouliha;Andrew Mcpherson - 通讯作者:
Andrew Mcpherson
On-line routing of random calls in networks
- DOI:
10.1007/s00440-002-0242-2 - 发表时间:
2003-04-01 - 期刊:
- 影响因子:1.600
- 作者:
Malwina J. Luczak;Colin McDiarmid;Eli Upfal - 通讯作者:
Eli Upfal
Eli Upfal的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Eli Upfal', 18)}}的其他基金
RI: Small: Statistically Sound and Computationally Efficient Data Analysis Through Algorithmic Applications of Rademacher Averages
RI:小:通过 Rademacher 平均值的算法应用进行统计上合理且计算高效的数据分析
- 批准号:
1813444 - 财政年份:2018
- 资助金额:
$ 156.67万 - 项目类别:
Continuing Grant
Efficient Distributed Approximation Algorithms
高效的分布式逼近算法
- 批准号:
1023166 - 财政年份:2009
- 资助金额:
$ 156.67万 - 项目类别:
Standard Grant
ITR/SY Algorithmic Issues in Large Scale Dynamic Networks
大规模动态网络中的 ITR/SY 算法问题
- 批准号:
0121154 - 财政年份:2001
- 资助金额:
$ 156.67万 - 项目类别:
Standard Grant
Design and Analysis of Dynamic Processes: A Stochastic Approach
动态过程的设计和分析:随机方法
- 批准号:
9731477 - 财政年份:1998
- 资助金额:
$ 156.67万 - 项目类别:
Standard Grant
相似国自然基金
肝细胞Mid 1活化加重脓毒症病理进程的分子机制研究及干预策略优化
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
MID1调控肿瘤相关巨噬细胞细胞中IRF8-STING通路在胶质瘤微环境中的作用机制研究
- 批准号:2025JJ70385
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
E3泛素连接酶Mid1调控Treg细胞影响GVHD 的作用及机制研究
- 批准号:
- 批准年份:2024
- 资助金额:0.0 万元
- 项目类别:省市级项目
线粒体动力蛋白MiD51在IL-27诱导类风湿关节炎DN2-B细胞分化扩增中的作用及机制研究
- 批准号:82302047
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
MID1调控糖稳态的分子机制
- 批准号:32000815
- 批准年份:2020
- 资助金额:24.0 万元
- 项目类别:青年科学基金项目
MID1基因缺陷对颅神经嵴细胞的影响及唇腭裂形成的分子病理
- 批准号:2020A151501160
- 批准年份:2020
- 资助金额:10.0 万元
- 项目类别:省市级项目
水稻MID1和赤霉素互作调控缺水条件下花粉发育的机制研究
- 批准号:31770352
- 批准年份:2017
- 资助金额:60.0 万元
- 项目类别:面上项目
基于最小重要差异值(MID)的冠心病病证结合疗效评价量表中医临床疗效判定阈值研究
- 批准号:81603504
- 批准年份:2016
- 资助金额:17.0 万元
- 项目类别:青年科学基金项目
层级稀疏化的Mid-Level特征空间下高分辨率遥感影像检索方法研究
- 批准号:41401376
- 批准年份:2014
- 资助金额:25.0 万元
- 项目类别:青年科学基金项目
MID器件机电集成数字化设计关键问题的研究
- 批准号:50975241
- 批准年份:2009
- 资助金额:20.0 万元
- 项目类别:面上项目
相似海外基金
BIGDATA: Mid-Scale: ESCE: DCM: Collaborative Research: DataBridge - A Sociometric System for Long-Tail Science Data Collections
BIGDATA:中型:ESCE:DCM:协作研究:DataBridge - 长尾科学数据收集的社会计量系统
- 批准号:
1560625 - 财政年份:2015
- 资助金额:
$ 156.67万 - 项目类别:
Standard Grant
BIGDATA: Mid-Scale: ESCE: Collaborative Research: Discovery and Social Analytics for Large-Scale Scientific Literature
大数据:中等规模:ESCE:协作研究:大规模科学文献的发现和社会分析
- 批准号:
1502780 - 财政年份:2014
- 资助金额:
$ 156.67万 - 项目类别:
Standard Grant
BIGDATA: Mid-Scale DCM: DA: ESCE: Discovering Molecular Processes
BIGDATA:中型 DCM:DA:ESCE:发现分子过程
- 批准号:
8840914 - 财政年份:2013
- 资助金额:
$ 156.67万 - 项目类别:
BIGDATA: Mid-Scale: DCM: A Formal Foundation for Big Data Management
BIGDATA:中型:DCM:大数据管理的正式基础
- 批准号:
1247469 - 财政年份:2013
- 资助金额:
$ 156.67万 - 项目类别:
Continuing Grant
BIGDATA: Mid-Scale: DCM: Collaborative Research: Eliminating the Data Ingestion Bottleneck in Big Data Applications
BIGDATA:中型:DCM:协作研究:消除大数据应用中的数据摄取瓶颈
- 批准号:
1247726 - 财政年份:2013
- 资助金额:
$ 156.67万 - 项目类别:
Standard Grant
BIGDATA: Mid-Scale: DA: Collaborative Research: Genomes Galore - Core Techniques, Libraries, and Domain Specific Languages for High-Throughput DNA Sequencing
大数据:中规模:DA:协作研究:基因组丰富 - 高通量 DNA 测序的核心技术、库和领域特定语言
- 批准号:
1416259 - 财政年份:2013
- 资助金额:
$ 156.67万 - 项目类别:
Standard Grant
BIGDATA: Mid-Scale: DA : Collaborative Research Big Tensor Mining Theory
BIGDATA:中型:DA:协作研究大张量挖掘理论
- 批准号:
8599832 - 财政年份:2013
- 资助金额:
$ 156.67万 - 项目类别:
BIGDATA: Mid-Scale DCM: DA: ESCE: Discovering Molecular Processes
BIGDATA:中型 DCM:DA:ESCE:发现分子过程
- 批准号:
8599838 - 财政年份:2013
- 资助金额:
$ 156.67万 - 项目类别:
BIGDATA: Mid-Scale: DA: Distribution-based machine learning for high dimensional datasets
BIGDATA:中规模:DA:针对高维数据集的基于分布的机器学习
- 批准号:
1247658 - 财政年份:2013
- 资助金额:
$ 156.67万 - 项目类别:
Continuing Grant
BIGDATA: Mid-Scale: ESCE: Collaborative Research: Discovery and Social Analytics for Large-Scale Scientific Literature.
大数据:中等规模:ESCE:协作研究:大规模科学文献的发现和社会分析。
- 批准号:
1247696 - 财政年份:2013
- 资助金额:
$ 156.67万 - 项目类别:
Standard Grant