CRII: III: Toward the Compression of Pangenomic DNA Sequence Data Using Context-Free Grammars
CRII:III:使用上下文无关语法压缩泛基因组 DNA 序列数据
基本信息
- 批准号:2105391
- 负责人:
- 金额:$ 17.5万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2021
- 资助国家:美国
- 起止时间:2021-08-01 至 2024-07-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
DNA sequence data is becoming ubiquitous in various domains of science, such as medicine and agriculture. However, the volume of these data and the rate at which they are being generated is rapidly outpacing storage and analysis capabilities. This project aims to address both the storage and analysis issues by developing new techniques for compressing DNA sequence data such that analyses can be performed directly on the compressed data. Specifically, the project aims to compress collections of DNA sequence data from the same species, or pangenomes. In addition to reducing data storage costs and transmission times, this will enable the analysis of pangenomes at an unprecedented scale which could aid researchers seeking to understand the genetic basis of complex diseases in medical contexts, or similarly complex traits that are targets of directed breeding efforts in agricultural.The primary goal of this project is to develop new methods for compressing pangenomic DNA sequence data. The motivation comes from the fact that these data are too large to store uncompressed but must be continuously analyzed by the research community. This project addresses the issue by building on preliminary work that compresses collections of strings using context-free grammars in a manner that allows the string content of a compressed collection to be updated over time. The first aim of the project is to develop new algorithms for compressing multiple genomes of the same species in a manner that enables search and computation directly on compressed archives. The second aim is to develop methods for mapping sequencing reads to compressed archives. The third aim is to develop methods for compressing reads by using their mappings to integrate them into the compressed archive while enabling search and computation. The fourth aim is to develop methods for performing searches directly on compressed read archives. And the fifth aim is to implement these methods in an open-source software package including an Application Programming Interface for use by biological data science researchers. This project will innovate both DNA sequence data compression techniques and general data compression techniques. It will also enable pagenomic analyses at scale across industry and academia.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
DNA序列数据在医学和农业等各个科学领域变得无处不在。然而,这些数据的数量和生成速度迅速超过了存储和分析能力。该项目旨在通过开发压缩DNA序列数据的新技术来解决存储和分析问题,以便可以直接对压缩数据进行分析。具体来说,该项目旨在压缩来自同一物种或泛基因组的DNA序列数据。除了降低数据存储成本和传输时间外,这将使泛基因组分析能够以前所未有的规模进行,这可以帮助研究人员寻求了解医学背景下复杂疾病的遗传基础,或作为农业定向育种努力目标的类似复杂性状。本项目的主要目标是开发压缩泛基因组DNA序列数据的新方法。其动机来自这样一个事实,即这些数据太大,无法存储未压缩的数据,而必须由研究界持续分析。这个项目解决了这个问题,它建立在使用上下文无关语法压缩字符串集合的初步工作的基础上,使压缩集合的字符串内容能够随时间更新。该项目的第一个目标是开发新的算法,以压缩同一物种的多个基因组,从而可以直接在压缩档案上进行搜索和计算。第二个目标是开发将序列读取映射到压缩档案的方法。第三个目标是开发压缩读的方法,方法是使用它们的映射将它们集成到压缩的存档中,同时启用搜索和计算。第四个目标是开发直接在压缩读档案上执行搜索的方法。第五个目标是在一个开源软件包中实现这些方法,其中包括一个供生物数据科学研究人员使用的应用程序编程接口。该项目将创新DNA序列数据压缩技术和一般数据压缩技术。它还将使整个行业和学术界的大规模基因组分析成为可能。该奖项反映了美国国家科学基金会的法定使命,并通过使用基金会的知识价值和更广泛的影响审查标准进行评估,被认为值得支持。
项目成果
期刊论文数量(2)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Novel Grammar-Based Compression Algorithms for Pangenome Analysis
用于泛基因组分析的新型基于语法的压缩算法
- DOI:
- 发表时间:2023
- 期刊:
- 影响因子:0
- 作者:Dood, Jordan;Cleary, Alan M.
- 通讯作者:Cleary, Alan M.
Constructing the CDAWG CFG using LCP-Intervals
使用 LCP 间隔构建 CDAWG CFG
- DOI:10.1109/dcc55655.2023.00026
- 发表时间:2023
- 期刊:
- 影响因子:0
- 作者:Cleary, Alan M.;Dood, Jordan
- 通讯作者:Dood, Jordan
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Alan Cleary其他文献
Information flow analysis for javascript
JavaScript的信息流分析
- DOI:
- 发表时间:
2011 - 期刊:
- 影响因子:0
- 作者:
Seth C Just;Alan Cleary;Brandon Shirley;Christian Hammer - 通讯作者:
Christian Hammer
Reactive Game Engine Programming for STEM Outreach
用于 STEM 推广的反应式游戏引擎编程
- DOI:
10.1145/2676723.2677312 - 发表时间:
2015 - 期刊:
- 影响因子:0
- 作者:
Alan Cleary;Lucas Vandenbergh;J. Peterson - 通讯作者:
J. Peterson
Alan Cleary的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
相似国自然基金
全钒液流电池负极V(II)/V(III)电化学氧化还原的催化机理研究
- 批准号:2025JJ50094
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
吡咯烷生物碱所致肝窦阻塞综合征III区肝损伤的新机制——局部氨代谢紊乱
- 批准号:JCZRYB202500652
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
硅基III-V族亚微米线激光器的光场模式调控与耦合机理研究
- 批准号:JCZRQN202501004
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
MXene/nZVI@FH材料微域层界面调控水中砷(III)氧化迁移机制
- 批准号:2025JJ50319
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
HOXC8/OPN/CD44/EGFR轴介导的奥沙利铂耐药性在III期右半结肠癌耐药进展中的研究
- 批准号:2025JJ50694
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
AI结合超声原始射频信号评估Bethesda III/IV类甲状腺肿瘤包膜和血管侵犯研究
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
硫化砷靶向VPS4B-ESCRT-III调控自噬溶酶体通路逆转三阴性乳腺癌顺铂耐药性的研究
- 批准号:
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
ASPGR与MRC2双受体介导铱(III)配合物
脂质体抗肝肿瘤研究
- 批准号:
- 批准年份:2025
- 资助金额:10.0 万元
- 项目类别:省市级项目
Ap-Exo III 联合模式识别构建降尿酸药
物筛选新方法的研究
- 批准号:
- 批准年份:2025
- 资助金额:10.0 万元
- 项目类别:省市级项目
稻田土壤二氧化锰还原生成Mn(III)过程对As(III)的氧化-固定机制
- 批准号:2025JJ60246
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
相似海外基金
Research on tunnel FET using IV/III-V heterojunction toward circuit application
IV/III-V异质结隧道FET面向电路应用的研究
- 批准号:
16H06080 - 财政年份:2016
- 资助金额:
$ 17.5万 - 项目类别:
Grant-in-Aid for Young Scientists (A)
III: Medium: Collaborative Research: Toward Robust and Scalable Discovering of Significant Associations in Massive Genetic Data
III:媒介:合作研究:在海量遗传数据中稳健且可扩展地发现显着关联
- 批准号:
1664629 - 财政年份:2016
- 资助金额:
$ 17.5万 - 项目类别:
Standard Grant
III: Medium: Collaborative Research: Toward Robust and Scalable Discovering of Significant Associations in Massive Genetic Data
III:媒介:合作研究:在海量遗传数据中稳健且可扩展地发现显着关联
- 批准号:
1162369 - 财政年份:2012
- 资助金额:
$ 17.5万 - 项目类别:
Continuing Grant
III: Medium: Collaborative Research: Toward Robust and Scalable Discovering of Significant Associations in Massive Genetic Data
III:媒介:合作研究:在海量遗传数据中稳健且可扩展地发现显着关联
- 批准号:
1162374 - 财政年份:2012
- 资助金额:
$ 17.5万 - 项目类别:
Standard Grant
Collaborative Research: ELOKA Phase III: Toward Sustainable Data Management Support for Community-Based Observations Contributing to the Arctic Observing Network
合作研究:ELOKA 第三阶段:为社区观测提供可持续数据管理支持,为北极观测网络做出贡献
- 批准号:
1231638 - 财政年份:2012
- 资助金额:
$ 17.5万 - 项目类别:
Continuing Grant
Collaborative Research: ELOKA Phase III: Toward Sustainable Data Management Support for Community-Based Observations Contributing to the Arctic Observing Network
合作研究:ELOKA 第三阶段:为社区观测提供可持续数据管理支持,为北极观测网络做出贡献
- 批准号:
1231130 - 财政年份:2012
- 资助金额:
$ 17.5万 - 项目类别:
Continuing Grant
III: Medium: Collaborative Research: Toward Robust and Scalable Discovering of Significant Associations in Massive Genetic Data
III:媒介:合作研究:在海量遗传数据中稳健且可扩展地发现显着关联
- 批准号:
1313606 - 财政年份:2012
- 资助金额:
$ 17.5万 - 项目类别:
Continuing Grant
901ARRA COMPONENT III: SURVEILLANCE AND INTERVENTION ACTIVITIES TOWARD:
901ARRA 第 III 部分:针对以下目标的监视和干预活动:
- 批准号:
8020450 - 财政年份:2010
- 资助金额:
$ 17.5万 - 项目类别:
III: Small: Medieval Unicorn: Toward Enhanced Understanding of Virtual Manuscripts on the Grid in the Twenty-First Century
III:小:中世纪的独角兽:增强对二十一世纪网格上的虚拟手稿的理解
- 批准号:
0910562 - 财政年份:2009
- 资助金额:
$ 17.5万 - 项目类别:
Standard Grant
Fabrication of III-V semiconductor/Si heterojunctions without disturbance of inter-diffusion toward high frequency devices
制造 III-V 族半导体/硅异质结而不会干扰高频器件的相互扩散
- 批准号:
11650322 - 财政年份:1999
- 资助金额:
$ 17.5万 - 项目类别:
Grant-in-Aid for Scientific Research (C)