Modeling, Inference, and Optimization for Genomic and Biomedical Big Data
基因组和生物医学大数据的建模、推理和优化
基本信息
- 批准号:10633126
- 负责人:
- 金额:$ 53.92万
- 依托单位:
- 依托单位国家:美国
- 项目类别:
- 财政年份:2021
- 资助国家:美国
- 起止时间:2021-07-01 至 2026-05-31
- 项目状态:未结题
- 来源:
- 关键词:AlgorithmsAll of Us Research ProgramBig DataBiometryCodeComputer softwareDataData CorrelationsData SetDrowningElectronic Health RecordEpidemicGenomicsGrantImageIndividualMedical ImagingModelingModernizationParameter EstimationProgramming LanguagesSample SizeScienceStatistical MethodsTimeUnited States Department of Veterans AffairsUnited States National Institutes of HealthVeteransalgorithm developmentbig biomedical databiobankcomputerized toolsdata mininggenome-widegenomic dataheterogenous datahigh dimensionalityterabytetoolweb site
项目摘要
Abstract
The biomedical sciences are drowning in big data. Progress in fields such
as genomics and medical imaging is being stymied by the lack of ap-
propriate computational tools. This grant promotes the development of
algorithms, statistical methods, and software for the analysis of the big
datasets encountered in the biomedical sciences. The NIH All of Us Pro-
gram, the Million Veteran Project (MVP) sponsored by US Department of
Veterans Affairs (VA), and the UK Biobank are three prime examples of
recent massive datasets. These datasets require terabytes of storage on
sample sizes ranging from 105 to 106 and above subjects. The datasets
are also dynamic, growing over time in size and complexity. In addition,
the datasets are heterogeneous; for example, the UK Biobank offers ge-
nomic data, electronic health record (EHR) data, and imaging data on the
same study individuals. Finally, as with most real-world data, the data are
fraught with missingness and inaccuracy.
We propose attacking the issues of parameter estimation and model
selection raised by such massive datasets. We will be guided by princi-
ples of parsimony and high-dimensional optimization. Most of the specific
applications we have in mind involve imaging and genomics, particularly
genomewide association discovery. Fortunately, most of the tools and soft-
ware we construct will be more generically useful. Our successful algo-
rithms will be coded in the modern scientific programming language Julia
and posted on publicly available websites. We will focus on constrained
and sparse regression, EM and MM algorithms for optimization, variance
components models, bootstrapping of linear mixed models, a copula-like
model for correlated data, and sensitivity analysis in epidemic models.
These are all subjects of paramount importance in modern genomics, bio-
statistics and data mining.
抽象的
生物医学科学陷入了大数据中。领域的进展
由于缺乏基因组学和医学成像的困扰
规范计算工具。这项赠款促进了
用于分析大的算法,统计方法和软件
在生物医学科学中遇到的数据集。我们所有人都在支持
克,美国部门赞助的百万退伍军人项目(MVP)
退伍军人事务(VA)和英国生物库是三个主要例子
最近的大型数据集。这些数据集需要在
样本量范围为105至106及以上受试者。数据集
也是动态的,大小和复杂性随着时间的流逝而增长。此外,
数据集是异质的;例如,英国生物银行提供GE-
提名数据,电子健康记录(EHR)数据和成像数据
同一个研究人员。最后,与大多数实际数据一样,数据是
失踪和不准确。
我们提出攻击参数估计和模型的问题
通过此类庞大的数据集提出的选择。我们将受到原则的指导
简约和高维优化的元素。大多数特定的
我们想到的应用涉及成像和基因组学,特别是
全基因组协会发现。幸运的是,大多数工具和软工具
我们构建的商品将更加普遍。我们成功的算法 -
RITHM将在现代科学编程语言Julia中编码
并发布在公开的网站上。我们将专注于受约束的
以及稀疏回归,EM和MM算法以进行优化,方差
组件模型,线性混合模型的引导,类似于副群
相关数据的模型和流行模型中的灵敏度分析。
这些都是现代基因组学中至关重要的主题,生物学
统计和数据挖掘。
项目成果
期刊论文数量(9)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
ORTHOGONAL TRACE-SUM MAXIMIZATION: TIGHTNESS OF THE SEMIDEFINITE RELAXATION AND GUARANTEE OF LOCALLY OPTIMAL SOLUTIONS.
正交迹和最大化:半定松弛的严格性和局部最优解的保证。
- DOI:10.1137/21m1422707
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:Won,Joong-Ho;Zhang,Teng;Zhou,Hua
- 通讯作者:Zhou,Hua
MM optimization: Proximal distance algorithms, path following, and trust regions.
- DOI:10.1073/pnas.2303168120
- 发表时间:2023-07-04
- 期刊:
- 影响因子:11.1
- 作者:Landeros, Alfonso;Xu, Jason;Lange, Kenneth
- 通讯作者:Lange, Kenneth
Bayesian Trend Filtering via Proximal Markov Chain Monte Carlo
- DOI:10.1080/10618600.2023.2170089
- 发表时间:2022-01
- 期刊:
- 影响因子:2.4
- 作者:Qiang Heng;Hua Zhou;Eric C. Chi
- 通讯作者:Qiang Heng;Hua Zhou;Eric C. Chi
Algorithms for Sparse Support Vector Machines.
稀疏支持向量机算法。
- DOI:10.1080/10618600.2022.2146697
- 发表时间:2023
- 期刊:
- 影响因子:0
- 作者:Landeros,Alfonso;Lange,Kenneth
- 通讯作者:Lange,Kenneth
A proximal distance algorithm for likelihood-based sparse covariance estimation.
用于基于似然的稀疏协方差估计的近端距离算法。
- DOI:10.1093/biomet/asac011
- 发表时间:2022
- 期刊:
- 影响因子:2.7
- 作者:Xu,Jason;Lange,Kenneth
- 通讯作者:Lange,Kenneth
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Kenneth L Lange其他文献
Mutation Takes No Vacation: Can Structured Treatment Interruptions Increase the Risk of Drug‐Resistant HIV‐1?
突变不休:结构化治疗中断会增加耐药 HIV-1 的风险吗?
- DOI:
10.1097/00042560-200012150-00003 - 发表时间:
2000 - 期刊:
- 影响因子:0
- 作者:
K. Dorman;A. Kaplan;Kenneth L Lange;J. Sinsheimer - 通讯作者:
J. Sinsheimer
Kenneth L Lange的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Kenneth L Lange', 18)}}的其他基金
Modeling, Inference, and Optimization for Genomic and Biomedical Big Data
基因组和生物医学大数据的建模、推理和优化
- 批准号:
10205870 - 财政年份:2021
- 资助金额:
$ 53.92万 - 项目类别:
Modeling, Inference, and Optimization for Genomic and Biomedical Big Data
基因组和生物医学大数据的建模、推理和优化
- 批准号:
10438722 - 财政年份:2021
- 资助金额:
$ 53.92万 - 项目类别:
Training Grant in Genomic Analysis and Interpretation
基因组分析和解释培训补助金
- 批准号:
7488996 - 财政年份:2002
- 资助金额:
$ 53.92万 - 项目类别:
Training Grant in Genomic Analysis and Interpretation
基因组分析和解释培训补助金
- 批准号:
6605760 - 财政年份:2002
- 资助金额:
$ 53.92万 - 项目类别:
Training Grant in Genomic Analysis and Interpretation
基因组分析和解释培训补助金
- 批准号:
8473241 - 财政年份:2002
- 资助金额:
$ 53.92万 - 项目类别:
Training Grant in Genomic Analysis and Interpretation
基因组分析和解释培训补助金
- 批准号:
8149770 - 财政年份:2002
- 资助金额:
$ 53.92万 - 项目类别:
Training Grant in Genomic Analysis and Interpretation
基因组分析和解释培训补助金
- 批准号:
7487717 - 财政年份:2002
- 资助金额:
$ 53.92万 - 项目类别:
Training Grant in Genomic Analysis and Interpretation
基因组分析和解释培训补助金
- 批准号:
8698794 - 财政年份:2002
- 资助金额:
$ 53.92万 - 项目类别:
Training Grant in Genomic Analysis and Interpretation
基因组分析和解释培训补助金
- 批准号:
7661601 - 财政年份:2002
- 资助金额:
$ 53.92万 - 项目类别:
相似海外基金
All of Us Research Program Trans-America Consortium of the HCSRN
我们所有人研究计划 HCSRN 泛美联盟
- 批准号:
10871074 - 财政年份:2023
- 资助金额:
$ 53.92万 - 项目类别:
Data science tools to identify robust exposure-phenotype associations for precision medicine
数据科学工具可识别精准医学中强大的暴露-表型关联
- 批准号:
10705899 - 财政年份:2022
- 资助金额:
$ 53.92万 - 项目类别:
Traditional and New Dietary Assessment Methods (TANDAM) for Personalized Nutrition
个性化营养的传统和新膳食评估方法(TANDAM)
- 批准号:
10549801 - 财政年份:2022
- 资助金额:
$ 53.92万 - 项目类别:
California Partnership for Personalized Nutrition
加州个性化营养合作伙伴关系
- 批准号:
10669429 - 财政年份:2022
- 资助金额:
$ 53.92万 - 项目类别:
Traditional and New Dietary Assessment Methods (TANDAM) for Personalized Nutrition
个性化营养的传统和新膳食评估方法(TANDAM)
- 批准号:
10386740 - 财政年份:2022
- 资助金额:
$ 53.92万 - 项目类别: