Data analysis tools for leveraging massive public data to improve hypothesis-driven research
数据分析工具,利用大量公共数据来改进假设驱动的研究
基本信息
- 批准号:10598130
- 负责人:
- 金额:$ 42.82万
- 依托单位:
- 依托单位国家:美国
- 项目类别:
- 财政年份:2022
- 资助国家:美国
- 起止时间:2022-04-01 至 2027-02-28
- 项目状态:未结题
- 来源:
- 关键词:AcuteBiologicalCollectionCommunitiesComputer softwareCongressesDataData AnalysesData SourcesDevelopmentDiseaseGenerationsHeartIndividualMeasurementMedicalMethodsMolecularNational Institute of General Medical SciencesPatientsProcessReproducibilityResearchResearch PersonnelRunningSample SizeSamplingSourceSpeedStatistical Data InterpretationStatistical MethodsTechnologyTrainingUnited StatesUnited States National Institutes of HealthWorkcostcrowdsourcingdata resourcedesignexperimental studyfollow-uphigh throughput technologyimprovedlarge scale datapublic repositoryrecruittool
项目摘要
Project summary
There is a crisis of reproducibility and replicability of scientific results. This crisis is an increasing source of
concern both in the scientific and popular press. The crisis is so acute that the United States Congress is currently
investigating reproducibility of the scientific process. At the heart of this crisis is a collection of problems including
small-sample sizes, under-powered studies, under-trained data analysts and an inability to directly leverage prior
results in the statistical analysis of smaller, hypothesis-driven experiments using high-throughput technologies.
Advances in technology have dramatically reduced the cost and difficulty of collecting high-throughput molecular
data. Large collections of raw data are increasingly publicly available but are usually incorporated into individual
analyses by NIGMS and other investigators on an ad-hoc basis. Meanwhile, the other costs of running a designed,
hypothesis-driven study have not decreased at the same speed with technological advances. It is still expensive to
identify, recruit, collect, and follow up samples even if the high-throughput measurements themselves are cheap.
Despite the incredible amount of available public data, it is still common practice to perform statistical inference
in these hypothesis-driven experiments study-by-study, only indirectly including previous data, estimates, and
results. So findings from these studies may be highly variable, unreliable, or unreplicable. Our group has focused
on developing statistical methods, data resources, and software and training that allow researchers to borrow
strength empirically from public repositories, large-scale data generation projects, and crowd-sourced data to
improve inference in individual, hypothesis driven studies. We propose to build on our work in developing
statistical data sources, methods, software and training that facilitate and speed the work of our biological and
medical collaborators. The result will be a research community that can take advantage of public data already
collected at a large cost to the NIH to improve power, reduce required sample sizes, and improve replication in
many new hypothesis driven molecular studies of development and disorder.
项目摘要
科学结果的可重复性和可复制性存在危机。这场危机是越来越多的来源
在科学和大众媒体上关注。危机是如此严重,以至于美国国会目前是
研究科学过程的可重复性。这场危机的核心是一系列问题
小样本尺寸,不足的研究,训练不足的数据分析师以及无法直接利用先验
通过高通量技术对较小的假设驱动实验进行统计分析。
技术进步大大降低了收集高通量分子的成本和困难
数据。大量的原始数据收集越来越公开,但通常被纳入个人
NIGMS和其他研究人员的分析是临时的。同时,运行设计的其他成本,
假设驱动的研究并未以技术进步的速度降低。它仍然很昂贵
即使高通量测量本身便宜,识别,招募,收集和跟进样品也是如此。
尽管有大量可用的公共数据,但执行统计推断仍然是常见的做法
在这些假设驱动的实验中,仅间接研究包括以前的数据,估计和
结果。因此,这些研究的发现可能是高度可变,不可靠或无法重复的。我们的小组专注于
关于开发统计方法,数据资源以及软件和培训,使研究人员得以借用
从公共存储库,大规模数据生成项目和众筹数据的经验上的实力力量
改善个人,假设驱动的研究的推断。我们建议以我们开发的工作为基础
统计数据源,方法,软件和培训,促进和加快我们生物学和
医疗合作者。结果将是一个可以利用公共数据的研究社区
以大量成本收集到NIH,以提高功率,减少所需的样本量并改善复制
许多新的假设推动了发展和混乱的分子研究。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Jeffrey T. Leek其他文献
Jeffrey T. Leek的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Jeffrey T. Leek', 18)}}的其他基金
Data analysis tools for leveraging massive public data to improve hypothesis-driven research
数据分析工具,利用大量公共数据来改进假设驱动的研究
- 批准号:
10330636 - 财政年份:2022
- 资助金额:
$ 42.82万 - 项目类别:
Data analysis tools for leveraging massive public data to improve hypothesis-driven research
数据分析工具,利用大量公共数据来改进假设驱动的研究
- 批准号:
10654376 - 财政年份:2022
- 资助金额:
$ 42.82万 - 项目类别:
A massive study of data science to address the scientific reproducibility crisis
大规模数据科学研究以解决科学再现性危机
- 批准号:
9100338 - 财政年份:2016
- 资助金额:
$ 42.82万 - 项目类别:
A massive study of data science to address the scientific reproducibility crisis
大规模数据科学研究以解决科学再现性危机
- 批准号:
9244046 - 财政年份:2016
- 资助金额:
$ 42.82万 - 项目类别:
Statistical models for biological and technical variation in RNA sequencing
RNA 测序中生物和技术变异的统计模型
- 批准号:
8593469 - 财政年份:2013
- 资助金额:
$ 42.82万 - 项目类别:
Statistical models for biological and technical variation in RNA sequencing
RNA 测序中生物和技术变异的统计模型
- 批准号:
9264553 - 财政年份:2013
- 资助金额:
$ 42.82万 - 项目类别:
Statistical models for biological and technical variation in RNA sequencing
RNA 测序中生物和技术变异的统计模型
- 批准号:
8722575 - 财政年份:2013
- 资助金额:
$ 42.82万 - 项目类别:
相似国自然基金
mRNA反式调控基因转录的机制及其生物学功能
- 批准号:32330018
- 批准年份:2023
- 资助金额:220 万元
- 项目类别:重点项目
海洋微生物CRISPR单碱基分辨机制研究
- 批准号:42376184
- 批准年份:2023
- 资助金额:51 万元
- 项目类别:面上项目
大气生物源有机硝酸酯的合成、定量和其在中国南方城市的成因研究
- 批准号:22306059
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
城市污水厂生物除臭系统生物膜微界面微生物逸散行为及机制
- 批准号:52370026
- 批准年份:2023
- 资助金额:50 万元
- 项目类别:面上项目
增材制造锌镁合金复合椎间融合器降解调控机制与生物学效应研究
- 批准号:52301302
- 批准年份:2023
- 资助金额:20 万元
- 项目类别:青年科学基金项目
相似海外基金
Experiences of Discrimination, Dysbiosis, and Racial Disparities in Ovarian Cancer
卵巢癌中的歧视、生态失调和种族差异的经历
- 批准号:
10371537 - 财政年份:2023
- 资助金额:
$ 42.82万 - 项目类别:
The role of amphiregulin in mediating radiation cystitis in cancer survivors
双调蛋白在介导癌症幸存者放射性膀胱炎中的作用
- 批准号:
10636699 - 财政年份:2023
- 资助金额:
$ 42.82万 - 项目类别:
Patient Ventilator Asynchrony in Critically Ill Children
危重儿童患者呼吸机异步
- 批准号:
10657157 - 财政年份:2023
- 资助金额:
$ 42.82万 - 项目类别:
Role of KCTD proteins in striatal signaling
KCTD 蛋白在纹状体信号传导中的作用
- 批准号:
10734241 - 财政年份:2023
- 资助金额:
$ 42.82万 - 项目类别: