CAREER: De Novo Assembly of Large Genomic Data
职业:大型基因组数据的从头组装
基本信息
- 批准号:1453527
- 负责人:
- 金额:$ 54.9万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Continuing Grant
- 财政年份:2015
- 资助国家:美国
- 起止时间:2015-02-01 至 2022-01-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Sequencing is an experimental wet-lab technique to obtain information about the genome of an organism. The computational problem of genome assembly is to reconstruct the full sequence of the genome from sequencing data. Genome assembly faces several major challenges, including scalability, accuracy, and adaptability to new technology. In order to tackle these challenges, this project will develop new algorithms for assembly and explore their theoretical foundations. The developed algorithms and theory will make assembly tools more scalable and accurate and will enable assembly of data from emerging technologies. They will enable previously impractical assembly projects and allow biologists to perform assembly without needing expensive hardware. Genome assembly is becoming an increasingly important step in tackling some of our major societal challenges. For example, the study of plant genomes gives insights into sources of renewable energy, and helps identify the genome characteristics that can confer parasite resistance to plants. In epidemiology, the variability between the genomes of different pathogens strains or species can help pinpoint the geographic origin of a disease. Improving the quality of the human genome assembly will also help achieve the goals of the BRAIN Initiative Grand Challenge, by improving our ability to detect variations driving genetic disorders such as Alzheimer's, schizophrenia, autism and epilepsy. This project will make strides to tackling these major societal challenges by improving our ability to assemble the corresponding genomes. Due to its increasing prominence, it will be important to educate the public, students, and other researchers about genome assembly. A series of expository articles will be published in a general audience journal to educate the public about the role of genome assembly in societal issues, such as medical treatment and privacy. Bioinformatics education will be strengthened through K-12 and industry outreach, development and broad dissemination of teaching modules, and development of a new graduate course at Penn State. This project increases diversity through recruitment of underrepresented groups and engagement of undergraduate students. All educational and research outcomes will be made available freely to the public, and the software will be developed open source.Genome assembly faces several major challenges, including scalability, accuracy, and adaptability to new technology. A deeper understanding of the theoretical principles underlying assembly has the potential to impact all the major challenges facing assembly. The main research goal of this proposal is to develop the theory, algorithms, and software to tackle these challenges. The proposal will develop new algorithms and tools for assembly and explore their theoretical foundations. The subgoals are to develop a scalable assembler, to develop a modular assembly framework, to create predictive models for guiding experimental design, to characterize the relationship between string and de Bruijn graphs, and to characterize the structure of sequencing overlap graphs. The developed tools will be applied to biological data. Techniques from the theory of hash functions, I/O and parallel optimization, graph theory and statistics will be used. The wide range of phenotypic diversity observed across the phylogenetic spectrum is largely attributed to the differences between each species' genome. In the study of many species, assembling a reference genome offers tremendous biological insight and is a crucial step toward understanding their genetic, functional, and evolutionary aspects. The methods and theory developed as part of this proposal will make assembly tools more scalable and accurate and will enable assembly of data from emerging technologies. They will enable previously impractical assembly projects and allow biologists to perform assembly without needing expensive hardware.
测序是一种实验性的湿实验室技术,用于获得生物体基因组的信息。基因组组装的计算问题是从测序数据中重建基因组的完整序列。基因组组装面临着几个主要挑战,包括可扩展性,准确性和对新技术的适应性。 为了应对这些挑战,该项目将开发新的组装算法并探索其理论基础。 开发的算法和理论将使组装工具更具可扩展性和准确性,并将使新兴技术的数据组装成为可能。它们将使以前不切实际的组装项目成为可能,并允许生物学家在不需要昂贵硬件的情况下进行组装。基因组组装正在成为解决我们一些重大社会挑战的越来越重要的一步。例如,对植物基因组的研究有助于了解可再生能源的来源,并有助于确定可使植物对寄生虫产生抗性的基因组特征。在流行病学中,不同病原体菌株或物种的基因组之间的变异性可以帮助确定疾病的地理起源。提高人类基因组组装的质量也将有助于实现BRAIN Initiative Grand Challenge的目标,通过提高我们检测驱动阿尔茨海默氏症,精神分裂症,自闭症和癫痫等遗传疾病的变异的能力。该项目将通过提高我们组装相应基因组的能力来应对这些重大社会挑战。由于其日益突出,教育公众,学生和其他研究人员关于基因组组装将是重要的。将在普通读者期刊上发表一系列临时文章,教育公众了解基因组组装在医疗和隐私等社会问题中的作用。生物信息学教育将通过K-12和行业推广,教学模块的开发和广泛传播以及宾夕法尼亚州立大学新研究生课程的开发得到加强。该项目通过招募代表性不足的群体和本科生的参与来增加多样性。所有的教育和研究成果都将免费向公众提供,软件将开源开发。基因组组装面临着几个主要挑战,包括可扩展性,准确性和对新技术的适应性。更深入地了解组装的理论原理有可能影响组装面临的所有主要挑战。该提案的主要研究目标是开发理论,算法和软件来应对这些挑战。该提案将开发新的装配算法和工具,并探索其理论基础。子目标是开发一个可扩展的汇编程序,开发一个模块化的组装框架,创建预测模型,指导实验设计,字符串和de Bruijn图之间的关系,并表征测序重叠图的结构。开发的工具将应用于生物数据。将使用散列函数理论、I/O和并行优化、图论和统计学等技术。 在整个系统发育谱中观察到的广泛的表型多样性在很大程度上归因于每个物种基因组之间的差异。在许多物种的研究中,组装参考基因组提供了巨大的生物学见解,是理解其遗传,功能和进化方面的关键一步。作为该提案的一部分开发的方法和理论将使组装工具更具可扩展性和准确性,并将使新兴技术的数据组装成为可能。它们将使以前不切实际的组装项目成为可能,并允许生物学家在不需要昂贵硬件的情况下进行组装。
项目成果
期刊论文数量(7)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Paul Medvedev其他文献
Constructing and personalizing population pangenome graphs
构建和个性化群体泛基因组图谱
- DOI:
10.1038/s41592-024-02402-7 - 发表时间:
2024-10-21 - 期刊:
- 影响因子:32.100
- 作者:
Rayan Chikhi;Yoann Dufresne;Paul Medvedev - 通讯作者:
Paul Medvedev
Theoretical Analysis of Edit Distance Algorithms
- DOI:
10.1145/3582490 - 发表时间:
2023-11 - 期刊:
- 影响因子:22.7
- 作者:
Paul Medvedev - 通讯作者:
Paul Medvedev
PLA-complexity of k-mer multisets
k-mer 多重集的 PLA 复杂性
- DOI:
- 发表时间:
2024 - 期刊:
- 影响因子:0
- 作者:
Md. Hasin Abrar;Paul Medvedev - 通讯作者:
Paul Medvedev
Proceedings of the SeqBio 2015 workshop: String algorithms for bioinformatics
SeqBio 2015 研讨会论文集:生物信息学的字符串算法
- DOI:
- 发表时间:
2021 - 期刊:
- 影响因子:0
- 作者:
A. Denise;O. Lespinet;Mireille Régnier;Groupement De;Recherche BioInformatique;Guillaume Blin;Christine Gaspin;Vincent Lacroix;Leandro Lima;Hélène Lopez;M. Sagot;B. Sinaimeri;C. Marchet;Clara Benoit;Frank Picard;Alice Julien;J. Kielbassa;Lilia Brînză;Bastien Cazaux;Eric Rivals;Matthieu Rosenfeld;Micha¨el Rao;G. Fici;Tomasz Kociumaka;T. Lecroq;A. Lefebvre;Élise Prieur;A. Radulescu;G. Fertin;Géraldine Jean;I. Rusu;Yoann Dufresne;Laurent Noé;V. Leclère;Maude Pupin;Gaëtan Benoit;C. Lemaitre;D. Lavenier;E. Drezen;Guillaume Rizk;R. Uricaru;R. Chikhi;A. Limasset;P. Peterlongo;Bashar Al;Roxane Mallouhi;Bassam AlKindy;C. Guyeux;Jean;J. Na;Hyunjoon Kim;Heejin Park;Martine Léonard;L. Mouchard;Kunsoo Park;Evgenia Furletova;Mireille Régnier;Jan Holub;Gilles Didier;Laurent Tichit;Morgane Thomas;M. Sagot;Micha¨el Rao;´Elise Prieur;V. Leclère;Gaëtan Benoit;Thibault Dayris;Shaun Jackman;Jared T Simpson;Paul Medvedev;Can Alkan;Cécile Monat;Christine Tranchant;Michel Salomon;Jean;Joong Chae;©. Joong;Chae Na;Mark Daniel Ward;Vincent Le Gallic;Yann Ponty;Cedric Chauve;J. Courtiel - 通讯作者:
J. Courtiel
Computational methods for discovering structural variation with next-generation sequencing
利用下一代测序技术发现结构变异的计算方法
- DOI:
10.1038/nmeth.1374 - 发表时间:
2009-10-15 - 期刊:
- 影响因子:32.100
- 作者:
Paul Medvedev;Monica Stanciu;Michael Brudno - 通讯作者:
Michael Brudno
Paul Medvedev的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Paul Medvedev', 18)}}的其他基金
A k-mer-based search engine for sequencing databases
基于 k-mer 的测序数据库搜索引擎
- 批准号:
2138585 - 财政年份:2022
- 资助金额:
$ 54.9万 - 项目类别:
Continuing Grant
ABI Innovation: A Novel Framework for Detecting Genomic Structural Variation
ABI Innovation:检测基因组结构变异的新框架
- 批准号:
1356529 - 财政年份:2014
- 资助金额:
$ 54.9万 - 项目类别:
Standard Grant
相似国自然基金
DNMT3B通过de novo甲基化下调EIF4A3表达抑制PI3K/AKT通路减少巨噬细胞M2极化增强NPC放疗抵抗的研究
- 批准号:2025JJ70151
- 批准年份:2025
- 资助金额:0.0 万元
- 项目类别:省市级项目
BAIAP2基因de novo变异在儿童发育性癫痫性脑病中的作用
及机制研究
- 批准号:
- 批准年份:2024
- 资助金额:0.0 万元
- 项目类别:省市级项目
基于中国马Y染色体de novo组装对家马父系起源进化及繁殖性状候选基因定位的研究
- 批准号:32302731
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
基于Cre酶的靶向性de novo DNA甲基化技术和模型开发
- 批准号:32300469
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
狼疮易感基因PHRF1及其de novo突变R194C的免疫病理机制研究
- 批准号:32270946
- 批准年份:2022
- 资助金额:54 万元
- 项目类别:
IDO-1介导的De novo NAD+合成激活在肺动脉高压中的作用和机制研究
- 批准号:
- 批准年份:2021
- 资助金额:30 万元
- 项目类别:青年科学基金项目
转录抑制辅因子de novo突变在系统性红斑狼疮中的发病机制研究
- 批准号:32170903
- 批准年份:2021
- 资助金额:58 万元
- 项目类别:面上项目
水稻de novo基因OsJDG1调控籼粳粒型分化的机理研究
- 批准号:
- 批准年份:2020
- 资助金额:58 万元
- 项目类别:面上项目
致聋基因de novo突变遗传来源及传递方式研究
- 批准号:81900951
- 批准年份:2019
- 资助金额:20.0 万元
- 项目类别:青年科学基金项目
牦牛Y染色体雄性特异区的de novo组装及SNP图谱构建
- 批准号:31960656
- 批准年份:2019
- 资助金额:40.0 万元
- 项目类别:地区科学基金项目
相似海外基金
de novo 脂肪酸合成経路に着目した心臓線維化の分子機序解明と治療法の確立
阐明心脏纤维化的分子机制并建立以脂肪酸从头合成途径为重点的治疗方法
- 批准号:
24K11290 - 财政年份:2024
- 资助金额:
$ 54.9万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
次世代mRNAに資するde novo IRESの創製
从头创建 IRES 有助于下一代 mRNA
- 批准号:
24KJ1491 - 财政年份:2024
- 资助金额:
$ 54.9万 - 项目类别:
Grant-in-Aid for JSPS Fellows
三次元血管モデルを用いた弾性線維のde novo形成機構の解明と再生法の開発
利用三维血管模型阐明弹性纤维的从头形成机制并开发再生方法
- 批准号:
23K18320 - 财政年份:2023
- 资助金额:
$ 54.9万 - 项目类别:
Grant-in-Aid for Challenging Research (Exploratory)
成体の血管恒常性維持におけるペリサイトのde novo発生機構の解明
阐明周细胞维持成人血管稳态的从头生成机制
- 批准号:
23KJ1987 - 财政年份:2023
- 资助金额:
$ 54.9万 - 项目类别:
Grant-in-Aid for JSPS Fellows
中心小体de novo形成を介したがん抑制機構の解明
阐明中心粒从头形成介导的癌症抑制机制
- 批准号:
23KJ0800 - 财政年份:2023
- 资助金额:
$ 54.9万 - 项目类别:
Grant-in-Aid for JSPS Fellows
Inherited and de novo genetic variants relevant to familial, recurrent and sporadic stillbirth
与家族性、复发性和散发性死产相关的遗传性和从头遗传变异
- 批准号:
10719376 - 财政年份:2023
- 资助金额:
$ 54.9万 - 项目类别:
Development of Next-Generation Mass Spectrometry-based de novo RNA Sequencing for all Modifications
开发适用于所有修饰的下一代基于质谱的从头 RNA 测序
- 批准号:
10581994 - 财政年份:2023
- 资助金额:
$ 54.9万 - 项目类别:
Conference: SMBE Satellite Meeting On De Novo Gene Birth
会议:SMBE 关于 De Novo 基因诞生的卫星会议
- 批准号:
2305321 - 财政年份:2023
- 资助金额:
$ 54.9万 - 项目类别:
Standard Grant
Collaborative Research: FET: Small: De Novo Protein Scaffold Filling by Combinatorial Algorithms and Deep Learning Models
合作研究:FET:小型:通过组合算法和深度学习模型从头填充蛋白质支架
- 批准号:
2307573 - 财政年份:2023
- 资助金额:
$ 54.9万 - 项目类别:
Standard Grant
Collaborative Research: DMREF: De Novo Proteins as Junctions in Polymer Networks
合作研究:DMREF:De Novo 蛋白质作为聚合物网络中的连接点
- 批准号:
2323315 - 财政年份:2023
- 资助金额:
$ 54.9万 - 项目类别:
Standard Grant