Approximating and Reasoning about Data Provenance

关于数据来源的近似和推理

基本信息

  • 批准号:
    9243763
  • 负责人:
  • 金额:
    $ 15.36万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
  • 财政年份:
    2016
  • 资助国家:
    美国
  • 起止时间:
    2016-09-15 至 2018-05-31
  • 项目状态:
    已结题

项目摘要

 DESCRIPTION (provided by applicant): In many Big Data applications today, such as Next-Generation Sequencing, data processing pipelines are highly complex, span multiple institutions, and include many human and computational steps. The pipelines evolve over time and vary across institutions, so it is difficult to track and reason about the processing pipelines to ensure consistency and correctness of results. Provenance-enabled scientific workflow systems promise to aid here - yet such workflow systems are often avoided due to perceptions of inflexibility, lack of good provenance analytics tools, and emphasis on supporting the data consumer rather than producer. We propose to better incentivize the adoption of workflow and other provenance tracking tools: (1) Instead of requiring a single workflow system across the entire pipeline, which can be inflexible, we allow for integration across multiple autonomous systems (provenance- enabled workflow systems, provenance tracking systems for languages like Python and R, etc.), and even across steps performed without any provenance tracking at all. (2) We develop provenance reasoning capabilities specifically useful to the data provider, such as provenance analytics across time, sites, and users; finding the code modules that best explain why two results are different; regression testing to determine whether a code change would affect prior results; and reconstructing missing provenance for steps that were not captured. These capabilities are expected to lead to wider tracking of data provenance, and ultimately to more consistent, reproducible, and reliable science. We will validate this hypothesis through the evaluation of our technologies within a Next-Generation Sequencing pipeline run by one of the PIs with collaborators at other institutions.
 描述(由申请人提供):在当今的许多大数据应用中,例如下一代测序,数据处理管道非常复杂,跨越多个机构,并且包括许多人工和计算步骤。管道随着时间的推移而发展,并且在不同的机构中有所不同,因此很难跟踪和推理处理管道 确保结果的一致性和正确性。支持出处的科学工作流系统有望在这里提供帮助-但由于对可扩展性的看法,缺乏良好的出处分析工具,以及强调支持数据消费者而不是生产者,这种工作流系统通常被避免。我们建议更好地激励工作流和其他出处跟踪工具的采用:(1)我们允许跨多个自治系统(支持出处的工作流系统,Python和R等语言的出处跟踪系统等)进行集成,而不是要求整个管道中的单个工作流系统,这可能是不灵活的,甚至在没有任何出处跟踪的情况下执行的步骤之间。 (2)我们开发了对数据提供者特别有用的出处推理功能,例如跨时间、站点和用户的出处分析;找到最能解释为什么两个结果不同的代码模块;回归测试以确定代码更改是否会影响先前的结果;以及为未捕获的步骤重建缺失的出处。这些功能有望导致更广泛的数据来源跟踪,并最终实现更一致,可重复和可靠的科学。我们将验证这一假设 通过在下一代测序管道中对我们的技术进行评估,该管道由一名PI与其他机构的合作者运行。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Zachary Ives其他文献

Zachary Ives的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Zachary Ives', 18)}}的其他基金

Approximating and Reasoning about Data Provenance
关于数据来源的近似和推理
  • 批准号:
    8876037
  • 财政年份:
    2015
  • 资助金额:
    $ 15.36万
  • 项目类别:
TRAINING PROGRAM IN BIOMEDICAL IMAGING AND INFORMATIONAL SCIENCES
生物医学成像和信息科学培训计划
  • 批准号:
    10641331
  • 财政年份:
    2009
  • 资助金额:
    $ 15.36万
  • 项目类别:
TRAINING PROGRAM IN BIOMEDICAL IMAGING AND INFORMATIONAL SCIENCES
生物医学成像和信息科学培训计划
  • 批准号:
    10263929
  • 财政年份:
    2009
  • 资助金额:
    $ 15.36万
  • 项目类别:

相似海外基金

How Does Particle Material Properties Insoluble and Partially Soluble Affect Sensory Perception Of Fat based Products
不溶性和部分可溶的颗粒材料特性如何影响脂肪基产品的感官知觉
  • 批准号:
    BB/Z514391/1
  • 财政年份:
    2024
  • 资助金额:
    $ 15.36万
  • 项目类别:
    Training Grant
BRC-BIO: Establishing Astrangia poculata as a study system to understand how multi-partner symbiotic interactions affect pathogen response in cnidarians
BRC-BIO:建立 Astrangia poculata 作为研究系统,以了解多伙伴共生相互作用如何影响刺胞动物的病原体反应
  • 批准号:
    2312555
  • 财政年份:
    2024
  • 资助金额:
    $ 15.36万
  • 项目类别:
    Standard Grant
RII Track-4:NSF: From the Ground Up to the Air Above Coastal Dunes: How Groundwater and Evaporation Affect the Mechanism of Wind Erosion
RII Track-4:NSF:从地面到沿海沙丘上方的空气:地下水和蒸发如何影响风蚀机制
  • 批准号:
    2327346
  • 财政年份:
    2024
  • 资助金额:
    $ 15.36万
  • 项目类别:
    Standard Grant
Graduating in Austerity: Do Welfare Cuts Affect the Career Path of University Students?
紧缩毕业:福利削减会影响大学生的职业道路吗?
  • 批准号:
    ES/Z502595/1
  • 财政年份:
    2024
  • 资助金额:
    $ 15.36万
  • 项目类别:
    Fellowship
Insecure lives and the policy disconnect: How multiple insecurities affect Levelling Up and what joined-up policy can do to help
不安全的生活和政策脱节:多种不安全因素如何影响升级以及联合政策可以提供哪些帮助
  • 批准号:
    ES/Z000149/1
  • 财政年份:
    2024
  • 资助金额:
    $ 15.36万
  • 项目类别:
    Research Grant
感性個人差指標 Affect-X の構築とビスポークAIサービスの基盤確立
建立个人敏感度指数 Affect-X 并为定制人工智能服务奠定基础
  • 批准号:
    23K24936
  • 财政年份:
    2024
  • 资助金额:
    $ 15.36万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
How does metal binding affect the function of proteins targeted by a devastating pathogen of cereal crops?
金属结合如何影响谷类作物毁灭性病原体靶向的蛋白质的功能?
  • 批准号:
    2901648
  • 财政年份:
    2024
  • 资助金额:
    $ 15.36万
  • 项目类别:
    Studentship
Investigating how double-negative T cells affect anti-leukemic and GvHD-inducing activities of conventional T cells
研究双阴性 T 细胞如何影响传统 T 细胞的抗白血病和 GvHD 诱导活性
  • 批准号:
    488039
  • 财政年份:
    2023
  • 资助金额:
    $ 15.36万
  • 项目类别:
    Operating Grants
New Tendencies of French Film Theory: Representation, Body, Affect
法国电影理论新动向:再现、身体、情感
  • 批准号:
    23K00129
  • 财政年份:
    2023
  • 资助金额:
    $ 15.36万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
The Protruding Void: Mystical Affect in Samuel Beckett's Prose
突出的虚空:塞缪尔·贝克特散文中的神秘影响
  • 批准号:
    2883985
  • 财政年份:
    2023
  • 资助金额:
    $ 15.36万
  • 项目类别:
    Studentship
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了