Novel domain-specific languages and compiler optimization methods for computational biology
计算生物学的新颖的特定领域语言和编译器优化方法
基本信息
- 批准号:RGPIN-2019-04973
- 负责人:
- 金额:$ 2.04万
- 依托单位:
- 依托单位国家:加拿大
- 项目类别:Discovery Grants Program - Individual
- 财政年份:2021
- 资助国家:加拿大
- 起止时间:2021-01-01 至 2022-12-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Motivation: The vast scale of data generated by next-generation sequencing (NGS) experiments necessitates the development of efficient computational methods, as the computational aspect is currently the biggest bottleneck of NGS pipelines. However, many promising methods cannot handle the scale of current and emerging NGS technologies and are too hard to use and replicate. Root cause of this problem lies in widely used general-purpose development environments that cannot efficiently express and optimize biological data workflows. Users are forced to use either high-level but slow languages such as Python, or low-level languages such as C that produce efficient tools but at a significant time and maintainability costs. Approach: A domain-specific language (DSL) and associated suite of compiler optimization techniques specifically tailored for biological and sequencing data would provide flexibility, simplicity and modularity for experimenting with new computational algorithms, while generating high-performance code and making the programs portable from resource-constrained architectures to the biggest supercomputers. Objectives: We propose a novel DSL and associated compiler named Seq that enables rapid and easy development of high-performance sequencing pipelines. To achieve this, we will: (i)design a programming language and a compiler that allows ease of development of high-level languages such as Python, while providing raw performance of low-level languages such as C (Objective 1); (ii)explore data access patterns in genomic workflows and devise methods that can exploit these patterns at the compiler level for automatic low-level optimizations across various computational environments, such as multicore CPUs, GPUs and handheld devices (Objective 2); and (iii)provide means to easily integrate Seq into popular bioinformatics and scientific environments and develop a curated library of algorithmic primitives for NGS data (Objective 3). The short-term goal is to develop a DSL that can efficiently handle various kinds of NGS data on common architectures. The long-term goal is to build a comprehensive and widely used infrastructure that allows rapid and easy method development for biological data. As computational biology HQP are in high demand in Canada, one of the key goals of this proposal is to train HQP over the course of five years. Impact: We envision our DSL to significantly boost Canadian genomics and health research by enabling researchers to express their ideas in a more natural way and by allowing them to use the best algorithmic methods for the job. Furthermore, we expect our DSL to aid large-scale scientific Canadian health projects by providing huge time and cost savings. We also anticipate Seq to become a key building block in the wide specter of widely used bioinformatics tools. Finally, we expect that HQP trained by this program will contribute to the Canadian knowledge-based economy.
动机:下一代测序(NGS)实验产生的海量数据需要开发高效的计算方法,因为计算方面是目前NGS流程的最大瓶颈。然而,许多有前景的方法无法应对当前和新兴 NGS 技术的规模,并且难以使用和复制。这个问题的根本原因在于广泛使用的通用开发环境无法有效表达和优化生物数据工作流程。用户被迫使用高级但速度较慢的语言(例如 Python),或者使用低级语言(例如 C),这些语言可以生成高效的工具,但需要花费大量的时间和可维护性成本。 方法:专门针对生物和测序数据定制的领域特定语言(DSL)和相关的编译器优化技术套件将为试验新的计算算法提供灵活性、简单性和模块化,同时生成高性能代码并使程序从资源受限的体系结构移植到最大的超级计算机。目标:我们提出了一种新颖的 DSL 和名为 Seq 的相关编译器,可以快速轻松地开发高性能测序管道。为了实现这一目标,我们将: (i) 设计一种编程语言和编译器,使其能够轻松开发 Python 等高级语言,同时提供 C 等低级语言的原始性能(目标 1); (ii) 探索基因组工作流程中的数据访问模式,并设计可以在编译器级别利用这些模式的方法,以跨各种计算环境(例如多核 CPU、GPU 和手持设备)进行自动低级优化(目标 2); (iii) 提供将 Seq 轻松集成到流行的生物信息学和科学环境中的方法,并为 NGS 数据开发一个精选的算法原语库(目标 3)。 短期目标是开发一种能够在通用架构上高效处理各种 NGS 数据的 DSL。长期目标是建立一个全面且广泛使用的基础设施,以便快速、轻松地开发生物数据的方法。由于加拿大对计算生物学 HQP 的需求量很大,因此该提案的主要目标之一是在五年内培训 HQP。影响:我们设想我们的 DSL 能够使研究人员以更自然的方式表达他们的想法,并允许他们使用最好的算法方法来完成工作,从而显着促进加拿大基因组学和健康研究。此外,我们希望我们的 DSL 能够节省大量时间和成本,从而为加拿大大型科学健康项目提供帮助。我们还预计 Seq 将成为广泛使用的生物信息学工具的关键组成部分。最后,我们期望通过该项目培训的HQP将为加拿大知识经济做出贡献。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Numanagic, Ibrahim其他文献
ORMAN: Optimal resolution of ambiguous RNA-Seq multimappings in the presence of novel isoforms
- DOI:
10.1093/bioinformatics/btt591 - 发表时间:
2014-03-01 - 期刊:
- 影响因子:5.8
- 作者:
Dao, Phuong;Numanagic, Ibrahim;Sahinalp, S. Cenk - 通讯作者:
Sahinalp, S. Cenk
Seq: A High-Performance Language for Bioinformatics
- DOI:
10.1145/3360551 - 发表时间:
2019-10-01 - 期刊:
- 影响因子:1.8
- 作者:
Shajii, Ariya;Numanagic, Ibrahim;Amarasinghe, Saman - 通讯作者:
Amarasinghe, Saman
An efficient genotyper and star-allele caller for pharmacogenomics.
- DOI:
10.1101/gr.277075.122 - 发表时间:
2023-01 - 期刊:
- 影响因子:7
- 作者:
Hari, Ananth;Zhou, Qinghui;Gonzaludo, Nina;Harting, John;Scott, Stuart A.;Qin, Xiang;Scherer, Steve;Sahinalp, S. Cenk;Numanagic, Ibrahim - 通讯作者:
Numanagic, Ibrahim
Allelic decomposition and exact genotyping of highly polymorphic and structurally variant genes
- DOI:
10.1038/s41467-018-03273-1 - 发表时间:
2018-02-26 - 期刊:
- 影响因子:16.6
- 作者:
Numanagic, Ibrahim;Malikic, Salem;Sahinalp, S. Cenk - 通讯作者:
Sahinalp, S. Cenk
SCALCE: boosting sequence compression algorithms using locally consistent encoding
- DOI:
10.1093/bioinformatics/bts593 - 发表时间:
2012-12-01 - 期刊:
- 影响因子:5.8
- 作者:
Hach, Faraz;Numanagic, Ibrahim;Sahinalp, S. Cenk - 通讯作者:
Sahinalp, S. Cenk
Numanagic, Ibrahim的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Numanagic, Ibrahim', 18)}}的其他基金
Novel domain-specific languages and compiler optimization methods for computational biology
计算生物学的新颖的特定领域语言和编译器优化方法
- 批准号:
RGPIN-2019-04973 - 财政年份:2022
- 资助金额:
$ 2.04万 - 项目类别:
Discovery Grants Program - Individual
Novel domain-specific languages and compiler optimization methods for computational biology
计算生物学的新颖的特定领域语言和编译器优化方法
- 批准号:
RGPIN-2019-04973 - 财政年份:2020
- 资助金额:
$ 2.04万 - 项目类别:
Discovery Grants Program - Individual
Novel domain-specific languages and compiler optimization methods for computational biology
计算生物学的新颖的特定领域语言和编译器优化方法
- 批准号:
DGECR-2019-00329 - 财政年份:2019
- 资助金额:
$ 2.04万 - 项目类别:
Discovery Launch Supplement
Novel domain-specific languages and compiler optimization methods for computational biology
计算生物学的新颖的特定领域语言和编译器优化方法
- 批准号:
RGPIN-2019-04973 - 财政年份:2019
- 资助金额:
$ 2.04万 - 项目类别:
Discovery Grants Program - Individual
Boosting compression of sequencing data using reordering
使用重新排序增强测序数据的压缩
- 批准号:
452424-2013 - 财政年份:2015
- 资助金额:
$ 2.04万 - 项目类别:
Vanier Canada Graduate Scholarship Tri-Council - Doctoral 3 years
Boosting compression of sequencing data using reordering
使用重新排序增强测序数据的压缩
- 批准号:
452424-2013 - 财政年份:2014
- 资助金额:
$ 2.04万 - 项目类别:
Vanier Canada Graduate Scholarship Tri-Council - Doctoral 3 years
相似国自然基金
RIPK3蛋白及其RHIM结构域在脓毒症早期炎症反应和脏器损伤中的作用和机制研究
- 批准号:82372167
- 批准年份:2023
- 资助金额:48.00 万元
- 项目类别:面上项目
拟连续domain范畴的若干问题研究
- 批准号:12301583
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
格值蕴涵算子与Domain理论中的若干问题
- 批准号:12331016
- 批准年份:2023
- 资助金额:193.00 万元
- 项目类别:重点项目
Domain理论中概率幂构造的若干问题研究
- 批准号:12371457
- 批准年份:2023
- 资助金额:43.5 万元
- 项目类别:面上项目
To空间上Domain理论中若干问题研究
- 批准号:12261040
- 批准年份:2022
- 资助金额:28 万元
- 项目类别:地区科学基金项目
面向Jung-Tix问题的Domain理论与量化序理论研究
- 批准号:12231007
- 批准年份:2022
- 资助金额:235 万元
- 项目类别:重点项目
C2 DOMAIN PROTEIN 1 (C2DP1)基因家族在植物开花调控中的功能研究
- 批准号:
- 批准年份:2022
- 资助金额:0.0 万元
- 项目类别:省市级项目
第四届Domain理论与拓扑学青年学者论坛
- 批准号:12242110
- 批准年份:2022
- 资助金额:5.00 万元
- 项目类别:专项项目
Domain理论中的收敛性与K-有界Sober空间范畴
- 批准号:
- 批准年份:2021
- 资助金额:30 万元
- 项目类别:青年科学基金项目
广义Domain结构的表示理论研究
- 批准号:12171149
- 批准年份:2021
- 资助金额:51 万元
- 项目类别:面上项目
相似海外基金
The Roles of a Novel Immune-Checkpoint Receptor Complex in Driving T Cell Dysfunction in Cancer
新型免疫检查点受体复合物在驱动癌症 T 细胞功能障碍中的作用
- 批准号:
10569043 - 财政年份:2022
- 资助金额:
$ 2.04万 - 项目类别:
The Roles of a Novel Immune-Checkpoint Receptor Complex in Driving T Cell Dysfunction in Cancer
新型免疫检查点受体复合物在驱动癌症 T 细胞功能障碍中的作用
- 批准号:
10435225 - 财政年份:2022
- 资助金额:
$ 2.04万 - 项目类别:
Novel domain-specific languages and compiler optimization methods for computational biology
计算生物学的新颖的特定领域语言和编译器优化方法
- 批准号:
RGPIN-2019-04973 - 财政年份:2022
- 资助金额:
$ 2.04万 - 项目类别:
Discovery Grants Program - Individual
Novel Type 1 Pilus Receptors in Pyelonephritis and Recurrent UTI
肾盂肾炎和复发性尿路感染中的新型 1 型菌毛受体
- 批准号:
10378625 - 财政年份:2021
- 资助金额:
$ 2.04万 - 项目类别:
Identification of a novel DRG-specific long noncoding RNA and its role in neuropathic pain
新型 DRG 特异性长非编码 RNA 的鉴定及其在神经病理性疼痛中的作用
- 批准号:
10382444 - 财政年份:2021
- 资助金额:
$ 2.04万 - 项目类别:
Identification of a novel DRG-specific long noncoding RNA and its role in neuropathic pain
新型 DRG 特异性长非编码 RNA 的鉴定及其在神经病理性疼痛中的作用
- 批准号:
10605185 - 财政年份:2021
- 资助金额:
$ 2.04万 - 项目类别:
Novel Type 1 Pilus Receptors in Pyelonephritis and Recurrent UTI
肾盂肾炎和复发性尿路感染中的新型 1 型菌毛受体
- 批准号:
10594971 - 财政年份:2021
- 资助金额:
$ 2.04万 - 项目类别:
Novel Type 1 Pilus Receptors in Pyelonephritis and Recurrent UTI
肾盂肾炎和复发性尿路感染中的新型 1 型菌毛受体
- 批准号:
10180267 - 财政年份:2021
- 资助金额:
$ 2.04万 - 项目类别:
Dissecting the roles of a novel immune-checkpoint receptor complex in driving T cell dysfunction in cancers
剖析新型免疫检查点受体复合物在驱动癌症 T 细胞功能障碍中的作用
- 批准号:
10541116 - 财政年份:2021
- 资助金额:
$ 2.04万 - 项目类别:














{{item.name}}会员




