Modeling, Inference, and Optimization for Genomic and Biomedical Big Data
基因组和生物医学大数据的建模、推理和优化
基本信息
- 批准号:10438722
- 负责人:
- 金额:$ 53.92万
- 依托单位:
- 依托单位国家:美国
- 项目类别:
- 财政年份:2021
- 资助国家:美国
- 起止时间:2021-07-01 至 2026-05-31
- 项目状态:未结题
- 来源:
- 关键词:AlgorithmsAll of Us Research ProgramBig DataBiometryCodeComputer softwareDataData SetDrowningElectronic Health RecordEpidemicGenomicsGrantImageIndividualMedical ImagingMindModelingModernizationProgramming LanguagesSample SizeScienceStatistical MethodsTimeUnited States Department of Veterans AffairsUnited States National Institutes of HealthVeteransalgorithm developmentbig biomedical databiobankcomputerized toolsdata mininggenome-wideheterogenous datahigh dimensionalityterabytetoolweb site
项目摘要
Abstract
The biomedical sciences are drowning in big data. Progress in fields such
as genomics and medical imaging is being stymied by the lack of ap-
propriate computational tools. This grant promotes the development of
algorithms, statistical methods, and software for the analysis of the big
datasets encountered in the biomedical sciences. The NIH All of Us Pro-
gram, the Million Veteran Project (MVP) sponsored by US Department of
Veterans Affairs (VA), and the UK Biobank are three prime examples of
recent massive datasets. These datasets require terabytes of storage on
sample sizes ranging from 105 to 106 and above subjects. The datasets
are also dynamic, growing over time in size and complexity. In addition,
the datasets are heterogeneous; for example, the UK Biobank offers ge-
nomic data, electronic health record (EHR) data, and imaging data on the
same study individuals. Finally, as with most real-world data, the data are
fraught with missingness and inaccuracy.
We propose attacking the issues of parameter estimation and model
selection raised by such massive datasets. We will be guided by princi-
ples of parsimony and high-dimensional optimization. Most of the specific
applications we have in mind involve imaging and genomics, particularly
genomewide association discovery. Fortunately, most of the tools and soft-
ware we construct will be more generically useful. Our successful algo-
rithms will be coded in the modern scientific programming language Julia
and posted on publicly available websites. We will focus on constrained
and sparse regression, EM and MM algorithms for optimization, variance
components models, bootstrapping of linear mixed models, a copula-like
model for correlated data, and sensitivity analysis in epidemic models.
These are all subjects of paramount importance in modern genomics, bio-
statistics and data mining.
摘要
生物医学科学正在淹没在大数据中。在以下领域取得的进展
由于基因组学和医学成像正受到缺乏应用程序的阻碍,
适当的计算工具。该补助金促进了
算法,统计方法和软件的分析大
生物医学科学中遇到的数据集。美国国立卫生研究院All of Us Pro-
由美国国防部赞助的百万退伍军人项目(MVP)
退伍军人事务部(VA)和英国生物银行是三个主要的例子,
最近的大规模数据集。这些数据集需要TB级的存储空间,
样本量范围为105至106名及以上受试者。数据集
也是动态的,随着时间的推移在规模和复杂性上不断增长。此外,本发明还提供了一种方法,
数据集是异构的;例如,英国生物银行提供通用的,
电子健康记录(EHR)数据和成像数据。
相同的研究对象。最后,与大多数真实世界的数据一样,
充满了遗漏和不准确。
我们提出攻击的问题,参数估计和模型
如此庞大的数据集所带来的选择。我们将遵循原则,
简约和高维优化的应用。大部分的具体
我们考虑的应用包括成像和基因组学,特别是
全基因组关联发现幸运的是,大多数工具和软件-
我们构建的软件将更加通用。我们成功的算法-
算法将使用现代科学编程语言Julia
并发布在公开网站上。我们将专注于受约束的
和稀疏回归,EM和MM优化算法,方差
成分模型,线性混合模型的自举,copula类
相关数据模型和流行病模型的敏感性分析。
这些都是现代基因组学、生物学和生物医学中最重要的课题。
统计和数据挖掘。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Kenneth L Lange其他文献
Mutation Takes No Vacation: Can Structured Treatment Interruptions Increase the Risk of Drug‐Resistant HIV‐1?
突变不休:结构化治疗中断会增加耐药 HIV-1 的风险吗?
- DOI:
10.1097/00042560-200012150-00003 - 发表时间:
2000 - 期刊:
- 影响因子:0
- 作者:
K. Dorman;A. Kaplan;Kenneth L Lange;J. Sinsheimer - 通讯作者:
J. Sinsheimer
Kenneth L Lange的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Kenneth L Lange', 18)}}的其他基金
Modeling, Inference, and Optimization for Genomic and Biomedical Big Data
基因组和生物医学大数据的建模、推理和优化
- 批准号:
10205870 - 财政年份:2021
- 资助金额:
$ 53.92万 - 项目类别:
Modeling, Inference, and Optimization for Genomic and Biomedical Big Data
基因组和生物医学大数据的建模、推理和优化
- 批准号:
10633126 - 财政年份:2021
- 资助金额:
$ 53.92万 - 项目类别:
Training Grant in Genomic Analysis and Interpretation
基因组分析和解释培训补助金
- 批准号:
7488996 - 财政年份:2002
- 资助金额:
$ 53.92万 - 项目类别:
Training Grant in Genomic Analysis and Interpretation
基因组分析和解释培训补助金
- 批准号:
6605760 - 财政年份:2002
- 资助金额:
$ 53.92万 - 项目类别:
Training Grant in Genomic Analysis and Interpretation
基因组分析和解释培训补助金
- 批准号:
8473241 - 财政年份:2002
- 资助金额:
$ 53.92万 - 项目类别:
Training Grant in Genomic Analysis and Interpretation
基因组分析和解释培训补助金
- 批准号:
8149770 - 财政年份:2002
- 资助金额:
$ 53.92万 - 项目类别:
Training Grant in Genomic Analysis and Interpretation
基因组分析和解释培训补助金
- 批准号:
7487717 - 财政年份:2002
- 资助金额:
$ 53.92万 - 项目类别:
Training Grant in Genomic Analysis and Interpretation
基因组分析和解释培训补助金
- 批准号:
8698794 - 财政年份:2002
- 资助金额:
$ 53.92万 - 项目类别:
Training Grant in Genomic Analysis and Interpretation
基因组分析和解释培训补助金
- 批准号:
7661601 - 财政年份:2002
- 资助金额:
$ 53.92万 - 项目类别:
相似海外基金
The Illinois Precision Medicine Consortium (IPMC) All of Us Research Program Site
伊利诺伊州精准医学联盟 (IPMC) All of Us 研究计划网站
- 批准号:
10872859 - 财政年份:2023
- 资助金额:
$ 53.92万 - 项目类别:
Nutrition for Precision Health, powered by the All of Us Research Program: Research Coordinating Center
精准健康营养,由“我们所有人研究计划”提供支持:研究协调中心
- 批准号:
10874354 - 财政年份:2023
- 资助金额:
$ 53.92万 - 项目类别:
All of Us Research Program Trans-America Consortium of the HCSRN
我们所有人研究计划 HCSRN 泛美联盟
- 批准号:
10871074 - 财政年份:2023
- 资助金额:
$ 53.92万 - 项目类别:
All of Us Research Program Heartland Consortium (AoURP-HC)
我们所有人研究计划中心联盟 (AoURP-HC)
- 批准号:
10871732 - 财政年份:2023
- 资助金额:
$ 53.92万 - 项目类别:
DARSaW: Developing, Assessing, and Refining Synthetic Sampling Weights to Improve Generalizability of the All of Us Research Program Data
DARSaW:开发、评估和细化合成采样权重,以提高我们所有人研究计划数据的普遍性
- 批准号:
10796237 - 财政年份:2023
- 资助金额:
$ 53.92万 - 项目类别:
Engaging Diverse Stakeholders in Genomic/Precision Medicine Research: The All of Us Research Program Engagement Core
让不同的利益相关者参与基因组/精准医学研究:我们所有人研究计划的参与核心
- 批准号:
10789515 - 财政年份:2023
- 资助金额:
$ 53.92万 - 项目类别:
Investigation of the social context and physical environment on cardiovascular disease disparities in the All of Us Research Program
“我们所有人研究计划”中心血管疾病差异的社会背景和物理环境调查
- 批准号:
10798725 - 财政年份:2023
- 资助金额:
$ 53.92万 - 项目类别:
The Participant Center: Empowering All of Us Research Program participation across the United States
参与者中心:增强我们所有人参与美国各地研究计划的能力
- 批准号:
10774158 - 财政年份:2023
- 资助金额:
$ 53.92万 - 项目类别:
Nutrition for Precision Health, powered by the All of Us Research Program: Research Coordinating Center
精准健康营养,由“我们所有人研究计划”提供支持:研究协调中心
- 批准号:
10757488 - 财政年份:2023
- 资助金额:
$ 53.92万 - 项目类别:
Multilevel analyses of oral health conditions among older adults in the All of Us Research Program
“我们所有人研究计划”中老年人口腔健康状况的多层次分析
- 批准号:
10658463 - 财政年份:2022
- 资助金额:
$ 53.92万 - 项目类别: