Novel domain-specific languages and compiler optimization methods for computational biology
计算生物学的新颖的特定领域语言和编译器优化方法
基本信息
- 批准号:RGPIN-2019-04973
- 负责人:
- 金额:$ 2.04万
- 依托单位:
- 依托单位国家:加拿大
- 项目类别:Discovery Grants Program - Individual
- 财政年份:2020
- 资助国家:加拿大
- 起止时间:2020-01-01 至 2021-12-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Motivation: The vast scale of data generated by next-generation sequencing (NGS) experiments necessitates the development of efficient computational methods, as the computational aspect is currently the biggest bottleneck of NGS pipelines. However, many promising methods cannot handle the scale of current and emerging NGS technologies and are too hard to use and replicate. Root cause of this problem lies in widely used general-purpose development environments that cannot efficiently express and optimize biological data workflows. Users are forced to use either high-level but slow languages such as Python, or low-level languages such as C that produce efficient tools but at a significant time and maintainability costs.
Approach: A domain-specific language (DSL) and associated suite of compiler optimization techniques specifically tailored for biological and sequencing data would provide flexibility, simplicity and modularity for experimenting with new computational algorithms, while generating high-performance code and making the programs portable from resource-constrained architectures to the biggest supercomputers.
Objectives: We propose a novel DSL and associated compiler named Seq that enables rapid and easy development of high-performance sequencing pipelines. To achieve this, we will:
(i) design a programming language and a compiler that allows ease of development of high-level languages such as Python, while providing raw performance of low-level languages such as C (Objective 1);
(ii) explore data access patterns in genomic workflows and devise methods that can exploit these patterns at the compiler level for automatic low-level optimizations across various computational environments, such as multicore CPUs, GPUs and handheld devices (Objective 2); and
(iii) provide means to easily integrate Seq into popular bioinformatics and scientific environments and develop a curated library of algorithmic primitives for NGS data (Objective 3).
The short-term goal is to develop a DSL that can efficiently handle various kinds of NGS data on common architectures. The long-term goal is to build a comprehensive and widely used infrastructure that allows rapid and easy method development for biological data. As computational biology HQP are in high demand in Canada, one of the key goals of this proposal is to train HQP over the course of five years.
Impact: We envision our DSL to significantly boost Canadian genomics and health research by enabling researchers to express their ideas in a more natural way and by allowing them to use the best algorithmic methods for the job. Furthermore, we expect our DSL to aid large-scale scientific Canadian health projects by providing huge time and cost savings. We also anticipate Seq to become a key building block in the wide specter of widely used bioinformatics tools. Finally, we expect that HQP trained by this program will contribute to the Canadian knowledge-based economy.
动机:下一代测序(NGS)实验产生的大规模数据需要开发高效的计算方法,因为计算方面目前是NGS管道的最大瓶颈。然而,许多有前途的方法无法处理当前和新兴的NGS技术的规模,并且难以使用和复制。这个问题的根本原因在于广泛使用的通用开发环境不能有效地表达和优化生物数据工作流。用户被迫使用高级但缓慢的语言(如Python)或低级语言(如C),这些语言可以产生高效的工具,但需要大量的时间和维护成本。
方法:领域特定语言(DSL)和相关的编译器优化技术套件专门为生物和测序数据量身定制,将提供灵活性,简单性和模块化的新计算算法的实验,同时生成高性能的代码,并使程序从资源受限的架构移植到最大的超级计算机。
目标:我们提出了一种新的DSL和相关的编译器命名为Seq,使快速,方便地开发高性能的测序管道。为此,我们将:
(i)设计一种编程语言和一个编译器,使高级语言(如Python)的开发变得容易,同时提供低级语言(如C)的原始性能(目标1);
(ii)探索基因组工作流程中的数据访问模式,并设计可以在编译器级别利用这些模式的方法,用于跨各种计算环境(如多核CPU,GPU和手持设备)的自动低级优化(目标2);
(iii)提供将Seq轻松集成到流行的生物信息学和科学环境中的方法,并为NGS数据开发一个精心策划的算法原语库(目标3)。
短期目标是开发一种DSL,可以在通用架构上有效地处理各种NGS数据。长期目标是建立一个全面和广泛使用的基础设施,允许快速和简单的方法开发生物数据。由于加拿大对计算生物学HQP的需求很高,该提案的主要目标之一是在五年内培训HQP。
影响:我们设想我们的DSL通过使研究人员能够以更自然的方式表达他们的想法,并允许他们使用最好的算法方法来完成这项工作,从而大大促进加拿大基因组学和健康研究。此外,我们希望我们的DSL通过节省大量的时间和成本来帮助加拿大大规模的科学健康项目。我们还预计Seq将成为广泛使用的生物信息学工具中的一个关键组成部分。最后,我们期望通过这个项目培训的HQP将有助于加拿大的知识经济。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Numanagic, Ibrahim其他文献
ORMAN: Optimal resolution of ambiguous RNA-Seq multimappings in the presence of novel isoforms
- DOI:
10.1093/bioinformatics/btt591 - 发表时间:
2014-03-01 - 期刊:
- 影响因子:5.8
- 作者:
Dao, Phuong;Numanagic, Ibrahim;Sahinalp, S. Cenk - 通讯作者:
Sahinalp, S. Cenk
Seq: A High-Performance Language for Bioinformatics
- DOI:
10.1145/3360551 - 发表时间:
2019-10-01 - 期刊:
- 影响因子:1.8
- 作者:
Shajii, Ariya;Numanagic, Ibrahim;Amarasinghe, Saman - 通讯作者:
Amarasinghe, Saman
An efficient genotyper and star-allele caller for pharmacogenomics.
- DOI:
10.1101/gr.277075.122 - 发表时间:
2023-01 - 期刊:
- 影响因子:7
- 作者:
Hari, Ananth;Zhou, Qinghui;Gonzaludo, Nina;Harting, John;Scott, Stuart A.;Qin, Xiang;Scherer, Steve;Sahinalp, S. Cenk;Numanagic, Ibrahim - 通讯作者:
Numanagic, Ibrahim
Allelic decomposition and exact genotyping of highly polymorphic and structurally variant genes
- DOI:
10.1038/s41467-018-03273-1 - 发表时间:
2018-02-26 - 期刊:
- 影响因子:16.6
- 作者:
Numanagic, Ibrahim;Malikic, Salem;Sahinalp, S. Cenk - 通讯作者:
Sahinalp, S. Cenk
SCALCE: boosting sequence compression algorithms using locally consistent encoding
- DOI:
10.1093/bioinformatics/bts593 - 发表时间:
2012-12-01 - 期刊:
- 影响因子:5.8
- 作者:
Hach, Faraz;Numanagic, Ibrahim;Sahinalp, S. Cenk - 通讯作者:
Sahinalp, S. Cenk
Numanagic, Ibrahim的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Numanagic, Ibrahim', 18)}}的其他基金
Novel domain-specific languages and compiler optimization methods for computational biology
计算生物学的新颖的特定领域语言和编译器优化方法
- 批准号:
RGPIN-2019-04973 - 财政年份:2022
- 资助金额:
$ 2.04万 - 项目类别:
Discovery Grants Program - Individual
Novel domain-specific languages and compiler optimization methods for computational biology
计算生物学的新颖的特定领域语言和编译器优化方法
- 批准号:
RGPIN-2019-04973 - 财政年份:2021
- 资助金额:
$ 2.04万 - 项目类别:
Discovery Grants Program - Individual
Novel domain-specific languages and compiler optimization methods for computational biology
计算生物学的新颖的特定领域语言和编译器优化方法
- 批准号:
DGECR-2019-00329 - 财政年份:2019
- 资助金额:
$ 2.04万 - 项目类别:
Discovery Launch Supplement
Novel domain-specific languages and compiler optimization methods for computational biology
计算生物学的新颖的特定领域语言和编译器优化方法
- 批准号:
RGPIN-2019-04973 - 财政年份:2019
- 资助金额:
$ 2.04万 - 项目类别:
Discovery Grants Program - Individual
Boosting compression of sequencing data using reordering
使用重新排序增强测序数据的压缩
- 批准号:
452424-2013 - 财政年份:2015
- 资助金额:
$ 2.04万 - 项目类别:
Vanier Canada Graduate Scholarship Tri-Council - Doctoral 3 years
Boosting compression of sequencing data using reordering
使用重新排序增强测序数据的压缩
- 批准号:
452424-2013 - 财政年份:2014
- 资助金额:
$ 2.04万 - 项目类别:
Vanier Canada Graduate Scholarship Tri-Council - Doctoral 3 years
相似国自然基金
RIPK3蛋白及其RHIM结构域在脓毒症早期炎症反应和脏器损伤中的作用和机制研究
- 批准号:82372167
- 批准年份:2023
- 资助金额:48.00 万元
- 项目类别:面上项目
拟连续domain范畴的若干问题研究
- 批准号:12301583
- 批准年份:2023
- 资助金额:30 万元
- 项目类别:青年科学基金项目
格值蕴涵算子与Domain理论中的若干问题
- 批准号:12331016
- 批准年份:2023
- 资助金额:193.00 万元
- 项目类别:重点项目
Domain理论中概率幂构造的若干问题研究
- 批准号:12371457
- 批准年份:2023
- 资助金额:43.5 万元
- 项目类别:面上项目
To空间上Domain理论中若干问题研究
- 批准号:12261040
- 批准年份:2022
- 资助金额:28 万元
- 项目类别:地区科学基金项目
面向Jung-Tix问题的Domain理论与量化序理论研究
- 批准号:12231007
- 批准年份:2022
- 资助金额:235 万元
- 项目类别:重点项目
C2 DOMAIN PROTEIN 1 (C2DP1)基因家族在植物开花调控中的功能研究
- 批准号:n/a
- 批准年份:2022
- 资助金额:0.0 万元
- 项目类别:省市级项目
第四届Domain理论与拓扑学青年学者论坛
- 批准号:12242110
- 批准年份:2022
- 资助金额:5.00 万元
- 项目类别:专项项目
Domain理论中的收敛性与K-有界Sober空间范畴
- 批准号:
- 批准年份:2021
- 资助金额:30 万元
- 项目类别:青年科学基金项目
广义Domain结构的表示理论研究
- 批准号:12171149
- 批准年份:2021
- 资助金额:51 万元
- 项目类别:面上项目
相似海外基金
The Roles of a Novel Immune-Checkpoint Receptor Complex in Driving T Cell Dysfunction in Cancer
新型免疫检查点受体复合物在驱动癌症 T 细胞功能障碍中的作用
- 批准号:
10569043 - 财政年份:2022
- 资助金额:
$ 2.04万 - 项目类别:
The Roles of a Novel Immune-Checkpoint Receptor Complex in Driving T Cell Dysfunction in Cancer
新型免疫检查点受体复合物在驱动癌症 T 细胞功能障碍中的作用
- 批准号:
10435225 - 财政年份:2022
- 资助金额:
$ 2.04万 - 项目类别:
Novel domain-specific languages and compiler optimization methods for computational biology
计算生物学的新颖的特定领域语言和编译器优化方法
- 批准号:
RGPIN-2019-04973 - 财政年份:2022
- 资助金额:
$ 2.04万 - 项目类别:
Discovery Grants Program - Individual
Novel Type 1 Pilus Receptors in Pyelonephritis and Recurrent UTI
肾盂肾炎和复发性尿路感染中的新型 1 型菌毛受体
- 批准号:
10378625 - 财政年份:2021
- 资助金额:
$ 2.04万 - 项目类别:
Identification of a novel DRG-specific long noncoding RNA and its role in neuropathic pain
新型 DRG 特异性长非编码 RNA 的鉴定及其在神经病理性疼痛中的作用
- 批准号:
10382444 - 财政年份:2021
- 资助金额:
$ 2.04万 - 项目类别:
Identification of a novel DRG-specific long noncoding RNA and its role in neuropathic pain
新型 DRG 特异性长非编码 RNA 的鉴定及其在神经病理性疼痛中的作用
- 批准号:
10605185 - 财政年份:2021
- 资助金额:
$ 2.04万 - 项目类别:
Novel Type 1 Pilus Receptors in Pyelonephritis and Recurrent UTI
肾盂肾炎和复发性尿路感染中的新型 1 型菌毛受体
- 批准号:
10594971 - 财政年份:2021
- 资助金额:
$ 2.04万 - 项目类别:
Novel domain-specific languages and compiler optimization methods for computational biology
计算生物学的新颖的特定领域语言和编译器优化方法
- 批准号:
RGPIN-2019-04973 - 财政年份:2021
- 资助金额:
$ 2.04万 - 项目类别:
Discovery Grants Program - Individual
Novel Type 1 Pilus Receptors in Pyelonephritis and Recurrent UTI
肾盂肾炎和复发性尿路感染中的新型 1 型菌毛受体
- 批准号:
10180267 - 财政年份:2021
- 资助金额:
$ 2.04万 - 项目类别: