CRII: CIF: Model-based Compression of Biological Sequences

CRII:CIF:基于模型的生物序列压缩

基本信息

  • 批准号:
    1755773
  • 负责人:
  • 金额:
    $ 17.5万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2018
  • 资助国家:
    美国
  • 起止时间:
    2018-03-15 至 2022-02-28
  • 项目状态:
    已结题

项目摘要

With the increasingly widespread use of high-throughput genome sequencing, the amount of biological sequence data is growing at a rate much faster than the decrease in the cost of storage media. To avoid saturating available storage capacity, such data must be compressed at a high ratio. Biological sequences are created over the course of evolution by mutation processes, including substitution, insertion, deletion, and duplication. While these processes shape the statistical properties of genomic sequences and play a critical role in determining which compression approaches will provide improved performance, they are not taken into account by current methods. The goal of this project is to provide a principled approach to biological data compression by developing and leveraging mutation models that approximate the generation process of genomic sequences.The main research thrusts of the project are: 1) determining the fundamental limits of the compressibility of biological sequences; and 2) developing and evaluating encoding and decoding algorithms that approach these limits. Identifying the limits of compression relies on developing combinatorial and stochastic string-editing models that represent sequence generation through genomic mutations. These models are then studied from an information-theoretic point of view to determine their combinatorial and stochastic capacities, thus providing bounds on the compressibility of genomic sequences. The second thrust leverages the statistical properties arising from mutation models, such as repeat structures, to develop efficient compression tools. In addition to improving compression methods, the success of these research directions will enhance our understanding of complex sequence generation processes, enable the generation of faithful synthetic data, and facilitate the quantitative study of the role of mutations in generating novel biological functions.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
随着高通量基因组测序的日益广泛使用,生物序列数据量的增长速度远远快于存储介质成本的下降。为了避免饱和可用存储容量,必须以高比率压缩此类数据。生物序列是在进化过程中通过突变过程产生的,包括替换、插入、缺失和复制。虽然这些过程塑造了基因组序列的统计特性,并在确定哪种压缩方法将提供更好的性能方面发挥了关键作用,但目前的方法没有考虑到它们。这个项目的目标是通过开发和利用近似于基因组序列生成过程的突变模型来提供一种原则性的生物数据压缩方法。该项目的主要研究重点是:1)确定生物序列可压缩性的基本界限;2)开发和评估接近这些界限的编码和解码算法。确定压缩的极限依赖于开发组合和随机字符串编辑模型,这些模型代表通过基因组突变产生的序列。然后从信息论的角度对这些模型进行研究,以确定它们的组合和随机容量,从而为基因组序列的可压缩性提供界限。第二个推力利用突变模型产生的统计特性,例如重复结构,以开发有效的压缩工具。除了改进压缩方法,这些研究方向的成功还将增强我们对复杂序列生成过程的理解,使我们能够生成真实的合成数据,并促进对突变在生成新生物功能中的作用的定量研究。该奖项反映了NSF的法定使命,并通过使用基金会的智力优势和更广泛的影响审查标准进行评估,被认为值得支持。

项目成果

期刊论文数量(15)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Single-Error Detection and Correction for Duplication and Substitution Channels
重复和替换通道的单错误检测和纠正
  • DOI:
    10.1109/tit.2020.3006228
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    2.5
  • 作者:
    Tang, Yuanyuan;Yehezkeally, Yonatan;Schwartz, Moshe;Farnoud Hassanzadeh, Farzad
  • 通讯作者:
    Farnoud Hassanzadeh, Farzad
Estimation of duplication history under a stochastic model for tandem repeats
  • DOI:
    10.1186/s12859-019-2603-1
  • 发表时间:
    2019-02-06
  • 期刊:
  • 影响因子:
    3
  • 作者:
    Farnoud, Farzad;Schwartz, Moshe;Bruck, Jehoshua
  • 通讯作者:
    Bruck, Jehoshua
Universal Compression of Large Alphabets with Constrained Compressors
使用受限压缩器对大字母进行通用压缩
Asymptotic Analysis of Data Deduplication with a Constant Number of Substitutions
恒定替换次数重复数据删除的渐近分析
Evolution of $k$ -Mer Frequencies and Entropy in Duplication and Substitution Mutation Systems
复制和替换突变系统中 $k$ -Mer 频率和熵的演化
  • DOI:
    10.1109/tit.2019.2946846
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    2.5
  • 作者:
    Lou, Hao;Schwartz, Moshe;Bruck, Jehoshua;Farnoud, Farzad
  • 通讯作者:
    Farnoud, Farzad
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Farzad Farnoud其他文献

Constrained Code for Data Storage in DNA via Nanopore Sequencing
通过纳米孔测序在 DNA 中存储数据的约束代码
Noise and uncertainty in string-duplication systems
字符串复制系统中的噪声和不确定性
A general framework for distributed vote aggregation
分布式投票聚合的通用框架
  • DOI:
    10.1109/acc.2013.6580423
  • 发表时间:
    2012
  • 期刊:
  • 影响因子:
    0
  • 作者:
    B. Touri;Farzad Farnoud;A. Nedić;O. Milenkovic
  • 通讯作者:
    O. Milenkovic
A Statistical Analysis of Duplication Errors in the Nanopore Sequencing Channel
纳米孔测序通道重复错误的统计分析
Small-sample distribution estimation over sticky channels
粘性通道上的小样本分布估计

Farzad Farnoud的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Farzad Farnoud', 18)}}的其他基金

Collaborative Research: CIF: Small: Versatile Data Synchronization: Novel Codes and Algorithms for Practical Applications
合作研究:CIF:小型:多功能数据同步:实际应用的新颖代码和算法
  • 批准号:
    2312871
  • 财政年份:
    2023
  • 资助金额:
    $ 17.5万
  • 项目类别:
    Standard Grant
CAREER: Model-based compression and probabilistic analysis of non-Markovian sequences
职业:非马尔可夫序列的基于模型的压缩和概率分析
  • 批准号:
    2144974
  • 财政年份:
    2022
  • 资助金额:
    $ 17.5万
  • 项目类别:
    Continuing Grant
CIF: Small: Collaborative Research: Rank Aggregation with Heterogeneous Information Sources: Efficient Algorithms and Fundamental Limits
CIF:小型:协作研究:异构信息源的排名聚合:高效算法和基本限制
  • 批准号:
    1908544
  • 财政年份:
    2019
  • 资助金额:
    $ 17.5万
  • 项目类别:
    Standard Grant
CIF: NSF-BSF: Small: Collaborative Research: Characterization and Mitigation of Noise in a Live DNA Storage Channel
CIF:NSF-BSF:小型:合作研究:活体 DNA 存储通道中噪声的表征和缓解
  • 批准号:
    1816409
  • 财政年份:
    2018
  • 资助金额:
    $ 17.5万
  • 项目类别:
    Standard Grant

相似国自然基金

Wolbachia的cif因子与天麻蚜蝇dsx基因协同调控生殖不育的机制研究
  • 批准号:
    JCZRQN202501187
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
SHR和CIF协同调控植物根系凯氏带形成的机制
  • 批准号:
    31900169
  • 批准年份:
    2019
  • 资助金额:
    23.0 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Collaborative Research: CIF: Medium: Snapshot Computational Imaging with Metaoptics
合作研究:CIF:Medium:Metaoptics 快照计算成像
  • 批准号:
    2403122
  • 财政年份:
    2024
  • 资助金额:
    $ 17.5万
  • 项目类别:
    Standard Grant
Collaborative Research: CIF-Medium: Privacy-preserving Machine Learning on Graphs
合作研究:CIF-Medium:图上的隐私保护机器学习
  • 批准号:
    2402815
  • 财政年份:
    2024
  • 资助金额:
    $ 17.5万
  • 项目类别:
    Standard Grant
Collaborative Research: CIF: Small: Mathematical and Algorithmic Foundations of Multi-Task Learning
协作研究:CIF:小型:多任务学习的数学和算法基础
  • 批准号:
    2343599
  • 财政年份:
    2024
  • 资助金额:
    $ 17.5万
  • 项目类别:
    Standard Grant
Collaborative Research: CIF: Small: Mathematical and Algorithmic Foundations of Multi-Task Learning
协作研究:CIF:小型:多任务学习的数学和算法基础
  • 批准号:
    2343600
  • 财政年份:
    2024
  • 资助金额:
    $ 17.5万
  • 项目类别:
    Standard Grant
CIF: Small: Learning Low-Dimensional Representations with Heteroscedastic Data Sources
CIF:小:使用异方差数据源学习低维表示
  • 批准号:
    2331590
  • 财政年份:
    2024
  • 资助金额:
    $ 17.5万
  • 项目类别:
    Standard Grant
Collaborative Research: CIF-Medium: Privacy-preserving Machine Learning on Graphs
合作研究:CIF-Medium:图上的隐私保护机器学习
  • 批准号:
    2402817
  • 财政年份:
    2024
  • 资助金额:
    $ 17.5万
  • 项目类别:
    Standard Grant
CAREER: CCF: CIF: Randomized Experimentation for Systems with Time-varying Dynamics and Network Interference
职业:CCF:CIF:具有时变动态和网络干扰的系统的随机实验
  • 批准号:
    2337796
  • 财政年份:
    2024
  • 资助金额:
    $ 17.5万
  • 项目类别:
    Continuing Grant
Collaborative Research: CIF-Medium: Privacy-preserving Machine Learning on Graphs
合作研究:CIF-Medium:图上的隐私保护机器学习
  • 批准号:
    2402816
  • 财政年份:
    2024
  • 资助金额:
    $ 17.5万
  • 项目类别:
    Standard Grant
CIF: Small: NSF-DST: Zak-OTFS - How to Make Communication and Radar Sensing More Predictable in 6G
CIF:小型:NSF-DST:Zak-OTFS - 如何使 6G 中的通信和雷达传感更具可预测性
  • 批准号:
    2342690
  • 财政年份:
    2024
  • 资助金额:
    $ 17.5万
  • 项目类别:
    Standard Grant
CIF: Small: Signal Processing and Learning for NOMA Millimeter-Wave Massive MIMO Systems
CIF:小型:NOMA 毫米波大规模 MIMO 系统的信号处理和学习
  • 批准号:
    2413622
  • 财政年份:
    2024
  • 资助金额:
    $ 17.5万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了