CRII: III: A Scalable Framework for Debugging Large Biological Ontologies

CRII:III:用于调试大型生物本体的可扩展框架

基本信息

  • 批准号:
    1657306
  • 负责人:
  • 金额:
    $ 15.1万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2017
  • 资助国家:
    美国
  • 起止时间:
    2017-03-01 至 2019-02-28
  • 项目状态:
    已结题

项目摘要

To capitalize on the transformative opportunities of the increasingly large amounts of digital data produced by the biological research community, we need to systematically adopt data and metadata standards, such as the Gene Ontology (GO). Because of GO?s fundamental role in codifying, managing, and sharing biological knowledge, quality issues, if not addressed, can cause misleading results or missed biological discoveries. Enhancing the quality of ontological systems such as GO, though a challenging and arduous task, can directly impact the very foundation of data-intensive research discovery. Most existing quality assurance approaches for GO have focused on the enrichment of concepts in order to keep pace with the rapidly evolving biological knowledge. However, critical structural information represented by relations has been largely ignored in existing quality assurance approaches, making them inadequate for their intended roles. Principled, scalable, and automated approaches that can debug GO to generate programmable (rather than manual) suggestions, if successful, can be a game changer in developing a new generation of methods for enhancing the quality of GO. The PI proposes a Subsumption-based Sub-term Inference Framework, SSIF, for auditing the GO by leveraging both its underlying graph structure and a novel term-algebra. SSIF combines the biological knowledge embedded in terms, sub-terms, and relationships captured in GO that can automatically detect semantic inconsistencies and generate change suggestions for future versions of GO.In order to enhance the quality of the Gene Ontology and other biomedical ontologies, the PI proposes development of a Subsumption-based Sub-term Inference Framework, SSIF. The SSIF includes three main components: (1) a sequence-based representation of GO concept terms by using part-of-speech parsing and sub-concept matching; (2) the formulation of algebraic operations for the development of a term-algebra combining this sequence-based representation with antonyms and subsumption-based longest subsequence alignment; and (3) the construction of a set of conditional rules for backward subsumption inference aimed at uncovering semantic inconsistencies in GO and other ontological structures. SSIF will be implemented using scalable computational algorithms and applied to the GO distributions provided by the Gene Ontology Consortium. Two algorithmic strategies will be explored to perform large-scale, backward subsumption inference on GO using the conditional rules: (1) exhaustive, all concept pairs, and (2) the subspace of concept pairs within a special type of induced substructures called non-lattice subgraphs. If an existing relation in GO is inconsistent with the consequence of the conditional rules, it represents a likely candidate of error. The uncovered semantic inconsistencies based on a collection of conditional rules have the potential to automatically reveal local ?bugs? as well as potential systemic patterns for review and revision, to enhance the quality of GO and other biomedical ontologies.
为了利用生物研究界产生的越来越大量的数字数据带来的变革性机会,我们需要系统地采用数据和元数据标准,如基因本体论(GO)。由于围棋S在编纂、管理和共享生物知识方面的基础作用,质量问题如果得不到解决,可能会导致误导性的结果或错过生物发现。提高像围棋这样的本体系统的质量,虽然是一项具有挑战性和艰巨的任务,但可以直接影响数据密集型研究发现的基础。现有的大多数围棋质量保证方法都侧重于丰富概念,以跟上快速发展的生物学知识的步伐。然而,在现有的质量保证办法中,关系所代表的关键结构信息在很大程度上被忽视了,这使它们不足以发挥预期的作用。原则性、可伸缩性和自动化的方法可以调试围棋以生成可编程(而不是手动)的建议,如果成功,可能会在开发提高围棋质量的新一代方法方面改变游戏规则。PI提出了一个基于包含的子项推理框架SSIF,它通过利用GO的底层图结构和一个新的术语代数来审计GO。SSIF结合了GO中的术语、子术语和关系中嵌入的生物学知识,可以自动检测语义不一致并为未来版本的GO生成更改建议。为了提高基因本体和其他生物医学本体的质量,PI提出了一个基于包含的子术语推理框架SSIF。SSIF包括三个主要部分:(1)使用词性分析和子概念匹配的围棋概念术语的基于序列的表示;(2)将基于序列的表示与反义词和基于包含的最长子序列比对相结合的代数运算的形成;(3)构建一组条件规则用于反向包含推理,旨在揭示围棋和其他本体结构中的语义不一致。SSIF将使用可伸缩的计算算法实现,并应用于基因本体论联盟提供的GO分发版本。将探索两种算法策略来使用条件规则在围棋上执行大规模的反向包含推理:(1)穷举,所有概念对,(2)在一种特殊类型的导出子结构中的概念对子空间,称为非格子图。如果围棋中的现有关系与条件规则的结果不一致,则表示可能会出错。基于条件规则集合的未被覆盖的语义不一致有可能自动揭示本地的Bug?以及潜在的可供审查和修改的系统模式,以提高围棋和其他生物医学本体的质量。

项目成果

期刊论文数量(10)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Quality Assurance of NCI Thesaurus by Mining Structural-Lexical Patterns
通过挖掘结构词汇模式保证 NCI 同义词库的质量
  • DOI:
  • 发表时间:
    2017
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Abeysinghe, Rashmie;Brooks, Michael A;Talbert, Jeffery;Cui, Licong
  • 通讯作者:
    Cui, Licong
Identifying Similar Non-Lattice Subgraphs in Gene Ontology based on Structural Isomorphism and Semantic Similarity of Concept Labels
基于概念标签的结构同构和语义相似性识别基因本体中相似的非格子图
SSIF: Subsumption-based Sub-term Inference Framework to audit Gene Ontology
  • DOI:
    10.1093/bioinformatics/btaa106
  • 发表时间:
    2020-05-15
  • 期刊:
  • 影响因子:
    5.8
  • 作者:
    Abeysinghe,Rashmie;Hinderer,Eugene W.;Cui,Licong
  • 通讯作者:
    Cui,Licong
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Licong Cui其他文献

Identifying Sleep-Related Factors Associated with Cognitive Function in a Hispanics/Latinos Cohort: A Dual Random Forest Approach
识别西班牙裔/拉丁裔群体中与认知功能相关的睡眠相关因素:双随机森林方法
A community effort for automatic detection of postictal generalized EEG suppression in epilepsy
  • DOI:
    10.1186/s12911-020-01306-8
  • 发表时间:
    2020-12-24
  • 期刊:
  • 影响因子:
    3.800
  • 作者:
    Yejin Kim;Xiaoqian Jiang;Samden D. Lhatoo;Guo-Qiang Zhang;Shiqiang Tao;Licong Cui;Xiaojin Li;Robert D. Jolly;Luyao Chen;Michael Phan;Cung Ha;Marijane Detranaltes;Jiajie Zhang
  • 通讯作者:
    Jiajie Zhang
Ontology-guided Health Information Extraction, Organization, and Exploration
本体引导的健康信息提取、组织和探索
  • DOI:
  • 发表时间:
    2014
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Licong Cui
  • 通讯作者:
    Licong Cui
Leveraging pretrained language models for seizure frequency extraction from epilepsy evaluation reports
利用预训练语言模型从癫痫评估报告中提取发作频率
  • DOI:
    10.1038/s41746-025-01592-4
  • 发表时间:
    2025-04-14
  • 期刊:
  • 影响因子:
    15.100
  • 作者:
    Rashmie Abeysinghe;Shiqiang Tao;Samden D. Lhatoo;Guo-Qiang Zhang;Licong Cui
  • 通讯作者:
    Licong Cui
Design and Implementation of a Comprehensive Web-based Survey for Ovarian Cancer Survivorship with an Analysis of Prediagnosis Symptoms via Text Mining
设计和实施基于网络的卵巢癌生存综合调查,并通过文本挖掘分析诊断前症状
  • DOI:
  • 发表时间:
    2014
  • 期刊:
  • 影响因子:
    2
  • 作者:
    Jiayang Sun;K. Bogie;Joseph Teagno;Yu;Rebecca R. Carter;Licong Cui;Guoqiang Zhang
  • 通讯作者:
    Guoqiang Zhang

Licong Cui的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Licong Cui', 18)}}的其他基金

CAREER: Advancing the Role of Ontologies for Data Science in Biomedicine
职业:推进数据科学本体在生物医学中的作用
  • 批准号:
    2047001
  • 财政年份:
    2021
  • 资助金额:
    $ 15.1万
  • 项目类别:
    Continuing Grant
III: Small: Methods for Auditing and Enhancing Completeness of Ontologies
III:小:审计和增强本体完整性的方法
  • 批准号:
    1931134
  • 财政年份:
    2019
  • 资助金额:
    $ 15.1万
  • 项目类别:
    Standard Grant
III: Small: Methods for Auditing and Enhancing Completeness of Ontologies
III:小:审计和增强本体完整性的方法
  • 批准号:
    1816805
  • 财政年份:
    2018
  • 资助金额:
    $ 15.1万
  • 项目类别:
    Standard Grant

相似国自然基金

全钒液流电池负极V(II)/V(III)电化学氧化还原的催化机理研究
  • 批准号:
    2025JJ50094
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
MXene/nZVI@FH材料微域层界面调控水中砷(III)氧化迁移机制
  • 批准号:
    2025JJ50319
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
硅基III-V族亚微米线激光器的光场模式调控与耦合机理研究
  • 批准号:
    JCZRQN202501004
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
吡咯烷生物碱所致肝窦阻塞综合征III区肝损伤的新机制——局部氨代谢紊乱
  • 批准号:
    JCZRYB202500652
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
HOXC8/OPN/CD44/EGFR轴介导的奥沙利铂耐药性在III期右半结肠癌耐药进展中的研究
  • 批准号:
    2025JJ50694
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
AI结合超声原始射频信号评估Bethesda III/IV类甲状腺肿瘤包膜和血管侵犯研究
  • 批准号:
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
硫化砷靶向VPS4B-ESCRT-III调控自噬溶酶体通路逆转三阴性乳腺癌顺铂耐药性的研究
  • 批准号:
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
ASPGR与MRC2双受体介导铱(III)配合物 脂质体抗肝肿瘤研究
  • 批准号:
  • 批准年份:
    2025
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
Ap-Exo III 联合模式识别构建降尿酸药 物筛选新方法的研究
  • 批准号:
  • 批准年份:
    2025
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
经关节突截骨矫治III期Kummell病临床有效性分析
  • 批准号:
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目

相似海外基金

Collaborative Research: III: Medium: Algorithms for scalable inference and phylodynamic analysis of tumor haplotypes using low-coverage single cell sequencing data
合作研究:III:中:使用低覆盖率单细胞测序数据对肿瘤单倍型进行可扩展推理和系统动力学分析的算法
  • 批准号:
    2415562
  • 财政年份:
    2023
  • 资助金额:
    $ 15.1万
  • 项目类别:
    Standard Grant
III: Medium: CARE: Interactive Systems for Scalable, Causal Data Science
III:媒介:CARE:可扩展因果数据科学的交互式系统
  • 批准号:
    2312561
  • 财政年份:
    2023
  • 资助金额:
    $ 15.1万
  • 项目类别:
    Continuing Grant
Collaborative Research: III: Medium: Algorithms for scalable inference and phylodynamic analysis of tumor haplotypes using low-coverage single cell sequencing data
合作研究:III:中:使用低覆盖率单细胞测序数据对肿瘤单倍型进行可扩展推理和系统动力学分析的算法
  • 批准号:
    2341725
  • 财政年份:
    2023
  • 资助金额:
    $ 15.1万
  • 项目类别:
    Standard Grant
Collaborative Research: III: Medium: Algorithms for scalable inference and phylodynamic analysis of tumor haplotypes using low-coverage single cell sequencing data
合作研究:III:中:使用低覆盖率单细胞测序数据对肿瘤单倍型进行可扩展推理和系统动力学分析的算法
  • 批准号:
    2212508
  • 财政年份:
    2022
  • 资助金额:
    $ 15.1万
  • 项目类别:
    Standard Grant
III: SMALL: Scalable In-Database Prescriptive Analytics for Dynamic Environments
III:小型:适用于动态环境的可扩展数据库内规范分析
  • 批准号:
    2211918
  • 财政年份:
    2022
  • 资助金额:
    $ 15.1万
  • 项目类别:
    Standard Grant
SemiSynBio-III: Scalable Nucleic Acid Memory
SemiSynBio-III:可扩展核酸内存
  • 批准号:
    2227626
  • 财政年份:
    2022
  • 资助金额:
    $ 15.1万
  • 项目类别:
    Standard Grant
Collaborative Research: III: Medium: Algorithms for scalable inference and phylodynamic analysis of tumor haplotypes using low-coverage single cell sequencing data
合作研究:III:中:使用低覆盖率单细胞测序数据对肿瘤单倍型进行可扩展推理和系统动力学分析的算法
  • 批准号:
    2212512
  • 财政年份:
    2022
  • 资助金额:
    $ 15.1万
  • 项目类别:
    Standard Grant
Collaborative Research: III: Medium: Algorithms for scalable inference and phylodynamic analysis of tumor haplotypes using low-coverage single cell sequencing data
合作研究:III:中:使用低覆盖率单细胞测序数据对肿瘤单倍型进行可扩展推理和系统动力学分析的算法
  • 批准号:
    2212511
  • 财政年份:
    2022
  • 资助金额:
    $ 15.1万
  • 项目类别:
    Standard Grant
III: Medium: Scalable Evolutionary Analysis of SNVs and CNAs in Cancer Using Single-Cell DNA Sequencing Data
III:中:使用单细胞 DNA 测序数据对癌症中的 SNV 和 CNA 进行可扩展的进化分析
  • 批准号:
    2106837
  • 财政年份:
    2021
  • 资助金额:
    $ 15.1万
  • 项目类别:
    Continuing Grant
III: Medium: Collaborative Research: Towards Scalable and Interpretable Graph Neural Networks
III:媒介:协作研究:迈向可扩展和可解释的图神经网络
  • 批准号:
    1955285
  • 财政年份:
    2020
  • 资助金额:
    $ 15.1万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了