AF: Small: Fast and accurate computational tools for large-scale evolutionary inference: a phylogenetic network approach

AF:小型:用于大规模进化推理的快速准确的计算工具:系统发育网络方法

基本信息

  • 批准号:
    1714417
  • 负责人:
  • 金额:
    $ 40.47万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2017
  • 资助国家:
    美国
  • 起止时间:
    2017-08-15 至 2021-07-31
  • 项目状态:
    已结题

项目摘要

A grand challenge in science is reconstructing the "Tree of Life", which is the phylogeny, or evolutionary history, of all species on Earth. The notion of a Tree of Life reflects Darwin's view of evolution as "tree-like", where bifurcating speciation results in an ancestral species giving rise to two genetically isolated descendant species. However, recent studies have challenged this view. "Non-tree-like" evolution due to inter-species gene flow - where DNA is shared between species existing at the same time - has significantly shaped the evolution of a far greater diversity of species than was ever thought possible, including humans and Neandertal, mice, and butterflies. In these cases, the phylogeny cannot be described by a tree, but is instead a more general structure known as a phylogenetic network. Our understanding of evolution and biology is at a crossroads. How frequently is the traditional assumption of tree-like evolution violated in the Tree of Life? What is the evolutionary role of gene flow? Applications include understanding the spread of antibiotic resistance among bacteria, which costs the U.S. over $35 billion and a loss of 23,000 lives annually, and pesticide resistance in weeds, mice, and other pests, which costs the U.S. billions of dollars annually. Phylogenetics, or the discipline which seeks to reconstruct evolutionary histories using biomolecular sequences and other biological data, can shed new light into these questions. Two ingredients are necessary for phylogenetic reconstruction and analysis: suitable biological data for the organisms under study, and computational methods capable of efficiently and accurately analyzing the data. Today, biological data abounds due to recent biotechnological advances, and large-scale datasets are common. However, computational methods have not kept pace. New computational frameworks are needed for fast and accurate phylogenetic network inference and analysis in the era of "big data". To address these challenges, this project will create new computational frameworks for fast and accurate network-based phylogenetic inference using large-scale genomic sequence datasets and evolutionary analysis of continuous biological data. The new methodologies will be validated using a comprehensive performance study. More broadly, this project will enable student training, scientific outreach, open-source software development, and scientific research that may yield new biological and biomedical discoveries.Phylogenies are typically inferred using computational analysis of biomolecular sequence data, and phylogenetic comparative methods are used for evolutionary analysis of continuous biological data (e.g., trait data). Today, "big data" challenges abound due to rapid advances in sequencing and related biotechnologies. In particular, large-scale datasets with hundreds of genomes are now common. The state of the art of phylogenetic inference therefore faces two critical scalability challenges: (1) the number of organisms in a study, and (2) greater evolutionary divergence reflecting the complex interplay of tree-like and non-tree-like evolution. For discrete sequence data, state-of-the-art methods address the second challenge, but are not scalable beyond inputs with a few dozen genomes; for continuous data, scalable approaches are needed to address the second challenge in the context of phylogenetic uncertainty and adaptive evolution. The proposed research creates new computational approaches that address both challenges for discrete sequence data and continuous data. The first objective is to create a novel computational framework for scalable phylogenetic network inference using large-scale genomic sequence data. The framework makes use of the multi-species network coalescent model to account for genetic drift, incomplete lineage sorting, and gene flow as well as traditional substitution-based models of sequence evolution. The framework builds on the PI's work on large-scale phylogenetic tree inference by adapting divide-and-conquer algorithms to the more general case of networks, resulting in accurate and efficient inference. The second objective is to develop novel stochastic models and methods for analyzing continuous character evolution on phylogenetic networks. The new models will generalize widely-used non-neutral models of continuous character evolution that assume tree-like evolution, and will be used to create new methods for phylogenetic inference using heterogeneous large-scale inputs. The third objective is to validate the new computational methodologies using new empirical and synthetic benchmarks. The empirical benchmarks include mouse, plant, and fungal datasets that have been produced through ongoing collaborations.
科学的一个重大挑战是重建“生命之树”,这是地球上所有物种的繁衍史或进化史。"生命之树“的概念反映了达尔文的进化“树状”观点,即物种分化导致一个祖先物种产生两个遗传上隔离的后代物种。然而,最近的研究挑战了这一观点。由于物种间的基因流动(DNA在同时存在的物种之间共享)而导致的“非树状”进化显著地塑造了物种多样性的进化,其多样性远远超过以往任何时候的想象,包括人类和尼安德特人,老鼠和蝴蝶。在这些情况下,系统发育不能用树来描述,而是一个更一般的结构,称为系统发育网络。我们对进化和生物学的理解正处于十字路口。在《生命之树》中,有多少次违背了树状进化的传统假设?基因流在进化中的作用是什么?应用包括了解细菌中抗生素耐药性的传播,这使美国每年损失超过350亿美元,并造成23,000人死亡,以及杂草,老鼠和其他害虫的杀虫剂耐药性,这使美国每年损失数十亿美元。系统发生学,或试图利用生物分子序列和其他生物数据重建进化历史的学科,可以为这些问题提供新的线索。系统发育重建和分析需要两个要素:所研究的生物体的合适的生物学数据,以及能够有效和准确地分析数据的计算方法。今天,由于最近的生物技术进步,生物数据丰富,大规模数据集很常见。然而,计算方法没有跟上步伐。在“大数据”时代,需要新的计算框架来进行快速准确的系统发育网络推断和分析。为了应对这些挑战,该项目将使用大规模基因组序列数据集和连续生物数据的进化分析创建新的计算框架,用于快速准确的基于网络的系统发育推断。将利用一项全面的业绩研究来验证新的方法。更广泛地说,该项目将使学生培训,科学推广,开源软件开发和科学研究,可能产生新的生物和生物医学发现。系统发育通常使用生物分子序列数据的计算分析来推断,系统发育比较方法用于连续生物数据的进化分析(例如,性状数据)。今天,由于测序和相关生物技术的快速发展,“大数据”挑战比比皆是。特别是,具有数百个基因组的大规模数据集现在很常见。因此,系统发育推断的最新技术面临两个关键的可扩展性挑战:(1)研究中的生物体数量,以及(2)更大的进化分歧,反映了树状和非树状进化的复杂相互作用。对于离散序列数据,最先进的方法解决了第二个挑战,但不能扩展到几十个基因组的输入之外;对于连续数据,需要可扩展的方法来解决系统发育不确定性和适应性进化背景下的第二个挑战。拟议的研究创造了新的计算方法,解决了离散序列数据和连续数据的挑战。第一个目标是使用大规模基因组序列数据创建一个新的可扩展系统发育网络推理的计算框架。该框架利用多物种网络结合模型来解释遗传漂变、不完全谱系排序和基因流以及传统的基于替代的序列进化模型。该框架建立在PI在大规模系统发育树推理方面的工作基础上,通过将分治算法适应于更一般的网络情况,从而实现准确和高效的推理。第二个目标是开发新的随机模型和方法,用于分析系统发育网络上的连续字符进化。新的模型将推广广泛使用的非中性模型的连续字符进化,假设树状进化,并将用于创建新的方法,系统发育推断使用异构的大规模输入。第三个目标是使用新的经验和合成基准来验证新的计算方法。经验基准包括通过持续合作产生的小鼠,植物和真菌数据集。

项目成果

期刊论文数量(10)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Statistical analysis of GC-biased gene conversion and recombination hotspots in eukaryotic genomes: a phylogenetic hidden Markov model-based approach
真核基因组中GC偏向基因转换和重组热点的统计分析:基于系统发育隐马尔可夫模型的方法
  • DOI:
    10.1145/3459930.3469509
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Gao, Meijun;Liu, Kevin J.
  • 通讯作者:
    Liu, Kevin J.
Coal-Miner: A Statistical Method for GWA Studies of Quantitative Traits with Complex Evolutionary Origins
Non-parametric and semi-parametric support estimation using SEquential RESampling random walks on biomolecular sequences
使用生物分子序列上的 SEequential RESampling 随机游走进行非参数和半参数支持估计
  • DOI:
    10.1186/s13015-020-00167-0
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    1
  • 作者:
    Wang, Wei;Smith, Jack;Hejase, Hussein A.;Liu, Kevin J.
  • 通讯作者:
    Liu, Kevin J.
An Application of Random Walk Resampling to Phylogenetic HMM Inference and Learning
随机游走重采样在系统发育 HMM 推理和学习中的应用
  • DOI:
    10.1109/tnb.2020.2991302
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    3.9
  • 作者:
    Wang, Wei;Wuyun, Qiqige;Liu, Kevin J.
  • 通讯作者:
    Liu, Kevin J.
Scalable Statistical Introgression Mapping Using Approximate Coalescent-Based Inference
使用基于近似合并的推理的可扩展统计渗入映射
  • DOI:
    10.1145/3307339.3343352
  • 发表时间:
    2019
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Wuyun, Qiqige;VanKuren, Nicholas W.;Kronforst, Marcus;Mullen, Sean P.;Liu, Kevin J.
  • 通讯作者:
    Liu, Kevin J.
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Kevin Liu其他文献

Medulloblastoma. Treatment results.
髓母细胞瘤。
Characterizing Planar Tanglegram Layouts and Applications to Edge Insertion Problems
表征平面缠结图布局及其在边缘插入问题中的应用
Permutation Statistics in Conjugacy Classes of the Symmetric Group
对称群共轭类的排列统计
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Michael Levet;Kevin Liu;Jesse Campion Loth;E. Stucky;S. Sundaram;Mei Yin
  • 通讯作者:
    Mei Yin
Collisions, rebounds and skimming
碰撞、篮板和掠夺
632: The FLASH Effect is dependent on Dose per Pulse and not Mean Dose Rate for Abdominal Irradiations
632:闪光效应取决于每个脉冲的剂量,而不是腹部辐照的平均剂量率
  • DOI:
    10.1016/s0167-8140(24)01200-3
  • 发表时间:
    2024-05-01
  • 期刊:
  • 影响因子:
    5.300
  • 作者:
    Kevin Liu;Trey Waldrop;Edgardo Aguilar;Nefititi Mims;Denae Neill;Abagail Delahoussaye;Cullen Taniguchi;Devarati Mitra;Emil Schueler
  • 通讯作者:
    Emil Schueler

Kevin Liu的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Kevin Liu', 18)}}的其他基金

CAREER: Future phylogenies: novel computational frameworks for biomolecular sequence analysis involving complex evolutionary origins
职业:未来的系统发育:涉及复杂进化起源的生物分子序列分析的新型计算框架
  • 批准号:
    2144121
  • 财政年份:
    2022
  • 资助金额:
    $ 40.47万
  • 项目类别:
    Continuing Grant
CRII: AF: Novel evolutionary models and algorithms to connect genomic sequence and phenotypic data
CRII:AF:连接基因组序列和表型数据的新颖进化模型和算法
  • 批准号:
    1565719
  • 财政年份:
    2016
  • 资助金额:
    $ 40.47万
  • 项目类别:
    Standard Grant

相似国自然基金

昼夜节律性small RNA在血斑形成时间推断中的法医学应用研究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
tRNA-derived small RNA上调YBX1/CCL5通路参与硼替佐米诱导慢性疼痛的机制研究
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
Small RNA调控I-F型CRISPR-Cas适应性免疫性的应答及分子机制
  • 批准号:
    32000033
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
Small RNAs调控解淀粉芽胞杆菌FZB42生防功能的机制研究
  • 批准号:
    31972324
  • 批准年份:
    2019
  • 资助金额:
    58.0 万元
  • 项目类别:
    面上项目
变异链球菌small RNAs连接LuxS密度感应与生物膜形成的机制研究
  • 批准号:
    81900988
  • 批准年份:
    2019
  • 资助金额:
    21.0 万元
  • 项目类别:
    青年科学基金项目
肠道细菌关键small RNAs在克罗恩病发生发展中的功能和作用机制
  • 批准号:
    31870821
  • 批准年份:
    2018
  • 资助金额:
    56.0 万元
  • 项目类别:
    面上项目
基于small RNA 测序技术解析鸽分泌鸽乳的分子机制
  • 批准号:
    31802058
  • 批准年份:
    2018
  • 资助金额:
    26.0 万元
  • 项目类别:
    青年科学基金项目
Small RNA介导的DNA甲基化调控的水稻草矮病毒致病机制
  • 批准号:
    31772128
  • 批准年份:
    2017
  • 资助金额:
    60.0 万元
  • 项目类别:
    面上项目
基于small RNA-seq的针灸治疗桥本甲状腺炎的免疫调控机制研究
  • 批准号:
    81704176
  • 批准年份:
    2017
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
水稻OsSGS3与OsHEN1调控small RNAs合成及其对抗病性的调节
  • 批准号:
    91640114
  • 批准年份:
    2016
  • 资助金额:
    85.0 万元
  • 项目类别:
    重大研究计划

相似海外基金

CNS Core: Small: Toward Opportunistic, Fast, and Robust In-Cache AI Acceleration at the Edge
CNS 核心:小型:在边缘实现机会主义、快速且稳健的缓存内 AI 加速
  • 批准号:
    2228028
  • 财政年份:
    2023
  • 资助金额:
    $ 40.47万
  • 项目类别:
    Standard Grant
Development of spin-echo SANS method for fast measurement of ultra-small-angle neutron scattering information
超小角中子散射信息快速测量自旋回波SANS方法的发展
  • 批准号:
    23K11708
  • 财政年份:
    2023
  • 资助金额:
    $ 40.47万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
FET: Small: AlignMEM: Fast and Efficient DNA Sequence Alignment in Non-Volatile Magnetic RAM
FET:小型:AlignMEM:非易失性磁性 RAM 中快速高效的 DNA 序列比对
  • 批准号:
    2349802
  • 财政年份:
    2023
  • 资助金额:
    $ 40.47万
  • 项目类别:
    Standard Grant
CRII: FRR: Latch-mediation as a Pathway for Control in Small, Fast Jumping Microrobots
CRII:FRR:闩锁中介作为小型、快速跳跃微型机器人的控制途径
  • 批准号:
    2153327
  • 财政年份:
    2022
  • 资助金额:
    $ 40.47万
  • 项目类别:
    Standard Grant
AF : Small : Fast algorithms for LPs, TSP, and Connectivity
AF:小型:LP、TSP 和连接的快速算法
  • 批准号:
    2129816
  • 财政年份:
    2022
  • 资助金额:
    $ 40.47万
  • 项目类别:
    Standard Grant
EAGER: III: Small: Green Granular Neural Networks with Fast FPGA-based Incremental Transfer Learning
EAGER:III:小型:具有基于 FPGA 的快速增量迁移学习的绿色粒度神经网络
  • 批准号:
    2234227
  • 财政年份:
    2022
  • 资助金额:
    $ 40.47万
  • 项目类别:
    Standard Grant
CNS Core: Small: Fast or Dynamic Websites? Eliminating the Need to Choose
CNS 核心:小型:快速还是动态网站?
  • 批准号:
    2101881
  • 财政年份:
    2021
  • 资助金额:
    $ 40.47万
  • 项目类别:
    Standard Grant
CIF: Small: Secure and Fast Federated Low-Rank Recovery from Few Column-wise Linear, or Quadratic, Projections
CIF:小型:通过少量列线性或二次投影进行安全快速的联合低秩恢复
  • 批准号:
    2115200
  • 财政年份:
    2021
  • 资助金额:
    $ 40.47万
  • 项目类别:
    Standard Grant
CIF: Small: Self-Adaptive Optimization Algorithms with Fast Convergence via Geometry-Adapted Hyper-Parameter Scheduling
CIF:小型:通过几何自适应超参数调度实现快速收敛的自适应优化算法
  • 批准号:
    2106216
  • 财政年份:
    2021
  • 资助金额:
    $ 40.47万
  • 项目类别:
    Standard Grant
Collaborative Research: MFB: Ultra-Fast Development of Portable Small Molecule Sensor-Actuators
合作研究:MFB:便携式小分子传感器执行器的超快速开发
  • 批准号:
    2128016
  • 财政年份:
    2021
  • 资助金额:
    $ 40.47万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了