Utilizing Imaged-based Features in Biomedical Literature Classification

利用基于图像的特征进行生物医学文献分类

基本信息

  • 批准号:
    8916181
  • 负责人:
  • 金额:
    $ 28万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
  • 财政年份:
    2014
  • 资助国家:
    美国
  • 起止时间:
    2014-09-01 至 2017-08-31
  • 项目状态:
    已结题

项目摘要

DESCRIPTION (provided by applicant): The proposed research aims to support and improve effective access to the biomedical literature, by utilizing the rich, highly-informative image data within publications, in addition to text. The biomedical literature is expanding at a rate of about 1,000,000 new publications a year. Scientists and physicians, as part of their daily work, go through a myriad of publications searching for relevant information. The task is even more arduous for scientific database curators (bio- curators, in organizations such as FlyBase or UniProt), who have to identify the literature most relevant to the database area, locate within it high-quality evidence concerning genes, proteins, organisms, or disease, and curate the findings within a database entry, with references to the relevant literature. Notably, much of the evidence within publications lies in figures. Accordingly, images are used by scientists and database curators as indicators for relevance. To assist and expedite the search for information within the literature, automated text-mining tools are being developed; still, several shared tasks and competitive challenges demonstrated that the need for more effective automated identification of relevant information in biomedical publications remains a bottleneck for bio-curation and for scientific discovery. While image analysis within and outside the biomedical domain is an active research area, most current work on biomedical image processing focuses on retrieval and understanding of images as a primary form of data. Likewise, most efforts on biomedical literature retrieval and mining focus on text alone. Little has been done so far to use images within publications, which provide important cues as to the relevance of information embedded in papers. The hypothesis underlying our proposal is that useful information can be derived directly from images within publications and integrated with text-based methods, leading to improved identification of relevant publications and of informative portions within them. The proposed research comprises extensive comparative study of highly-informative features within images, development and identification of such image-features, development of tools that extract such features and information from images, and integration of image-based information into the textual articles-classification process, aiming to determine the publications' relevance to well-defined biomedical needs. The fundamental research tasks we shall address are: A) Identification and comparative study of useful features for image-representation, focusing on their utility for specific biomedical needs; B) Classification of biomedical images and biomedical documents based on image-data; C) Document classification through integration of text- and image-based classifiers. To ground the research in genuine needs, secure access to much image data, and ensure broad-applicability of the results, we shall work within three diverse areas for which we have secured access to expertise and data: Finding articles about cis-regulatory regions (Cyrene project at Brown University); Evidence for gene expression in the mouse (Jackson Lab's GXD); Experimental evidence for protein-protein interaction (Delaware's Protein Information Resource). The successful completion of the proposed project will provide integrated methods and tools, utilizing both image-based and text-based features, leading to more focused and effective retrieval and mining tools, thus better supporting data-intensive biomedical discovery.
描述(由申请人提供):拟议的研究旨在通过利用出版物中丰富的、高度信息量的图像数据以及文本,来支持和改善对生物医学文献的有效获取。生物医学文献正在以大约 每年出版100万份新出版物。作为日常工作的一部分,科学家和内科医生会查阅无数的出版物,寻找相关信息。对于科学数据库馆长(FlyBase或UniProt等组织的生物馆长)来说,这项任务甚至更加艰巨,他们必须确定与数据库领域最相关的文献,在其中找到关于基因、蛋白质、生物或疾病的高质量证据,并在数据库条目中对研究结果进行整理,参考相关文献。值得注意的是,出版物中的大部分证据都是数字。因此,图像被科学家和数据库馆长用作相关性的指示器。 为了协助和加快在文献中搜索信息,正在开发自动文本挖掘工具;然而,一些共同的任务和竞争挑战表明,需要更有效地自动识别生物医学出版物中的相关信息,这仍然是生物管理和科学发现的一个瓶颈。虽然生物医学领域内外的图像分析是一个活跃的研究领域,但目前大多数生物医学图像处理的工作集中在作为主要数据形式的图像的检索和理解上。同样,大多数关于生物医学文献检索和挖掘的努力都集中在文本上。到目前为止,在出版物中使用图像的工作还很少,因为图像提供了关于论文中嵌入的信息的相关性的重要线索。 我们提议的假设是,有用的信息可以直接从出版物内的图像中获得,并与基于文本的方法相结合,从而改进对相关出版物和其中的信息部分的识别。拟议的研究包括对图像中高度信息量的特征进行广泛的比较研究,开发和识别这种图像特征,开发从图像中提取这种特征和信息的工具,以及将基于图像的信息整合到文本文章分类过程中,旨在确定出版物与明确定义的生物医学需求的相关性。我们将解决的基本研究任务是:A)识别和比较图像表示的有用特征,重点是它们对特定生物医学需求的实用性;B)基于图像数据的生物医学图像和生物医学文档的分类;C)基于文本和基于图像的分类器的文档分类。为了使研究满足真正的需求,确保对大量图像数据的安全访问,并确保结果的广泛适用性,我们将在三个我们已确保获得专业知识和数据的不同领域内工作:查找关于顺式调控区域的文章(布朗大学的Cyene项目);小鼠基因表达的证据(杰克逊实验室的GXD);蛋白质相互作用的实验证据(特拉华州的蛋白质信息资源)。拟议项目的成功完成将提供综合的方法和工具,利用基于图像和基于文本的特征,从而产生更有针对性和更有效的检索和挖掘工具,从而更好地支持数据密集型生物医学发现。

项目成果

期刊论文数量(5)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Corrigendum to "Text as data: Using text-based features for proteins representation and for computational prediction of their characteristics" [Methods 74 (2015) 54-64].
“文本作为数据:使用基于文本的特征进行蛋白质表示及其特征的计算预测”的勘误表 [方法 74 (2015) 54-64]。
  • DOI:
    10.1016/j.ymeth.2016.06.011
  • 发表时间:
    2016
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Shatkay,Hagit;Brady,Scott;Wong,Andrew
  • 通讯作者:
    Wong,Andrew
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

HAGIT SHATKAY其他文献

HAGIT SHATKAY的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('HAGIT SHATKAY', 18)}}的其他基金

Utilizing Imaged-based Features in Biomedical Literature Classification
利用基于图像的特征进行生物医学文献分类
  • 批准号:
    8892560
  • 财政年份:
    2014
  • 资助金额:
    $ 28万
  • 项目类别:

相似国自然基金

层出镰刀菌氮代谢调控因子AreA 介导伏马菌素 FB1 生物合成的作用机理
  • 批准号:
    2021JJ40433
  • 批准年份:
    2021
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
寄主诱导梢腐病菌AreA和CYP51基因沉默增强甘蔗抗病性机制解析
  • 批准号:
    32001603
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
AREA国际经济模型的移植.改进和应用
  • 批准号:
    18870435
  • 批准年份:
    1988
  • 资助金额:
    2.0 万元
  • 项目类别:
    面上项目

相似海外基金

Onboarding Rural Area Mathematics and Physical Science Scholars
农村地区数学和物理科学学者的入职
  • 批准号:
    2322614
  • 财政年份:
    2024
  • 资助金额:
    $ 28万
  • 项目类别:
    Standard Grant
Point-scanning confocal with area detector
点扫描共焦与区域检测器
  • 批准号:
    534092360
  • 财政年份:
    2024
  • 资助金额:
    $ 28万
  • 项目类别:
    Major Research Instrumentation
TRACK-UK: Synthesized Census and Small Area Statistics for Transport and Energy
TRACK-UK:交通和能源综合人口普查和小区域统计
  • 批准号:
    ES/Z50290X/1
  • 财政年份:
    2024
  • 资助金额:
    $ 28万
  • 项目类别:
    Research Grant
Wide-area low-cost sustainable ocean temperature and velocity structure extraction using distributed fibre optic sensing within legacy seafloor cables
使用传统海底电缆中的分布式光纤传感进行广域低成本可持续海洋温度和速度结构提取
  • 批准号:
    NE/Y003365/1
  • 财政年份:
    2024
  • 资助金额:
    $ 28万
  • 项目类别:
    Research Grant
Collaborative Research: Scalable Manufacturing of Large-Area Thin Films of Metal-Organic Frameworks for Separations Applications
合作研究:用于分离应用的大面积金属有机框架薄膜的可扩展制造
  • 批准号:
    2326714
  • 财政年份:
    2024
  • 资助金额:
    $ 28万
  • 项目类别:
    Standard Grant
Collaborative Research: Scalable Manufacturing of Large-Area Thin Films of Metal-Organic Frameworks for Separations Applications
合作研究:用于分离应用的大面积金属有机框架薄膜的可扩展制造
  • 批准号:
    2326713
  • 财政年份:
    2024
  • 资助金额:
    $ 28万
  • 项目类别:
    Standard Grant
Unlicensed Low-Power Wide Area Networks for Location-based Services
用于基于位置的服务的免许可低功耗广域网
  • 批准号:
    24K20765
  • 财政年份:
    2024
  • 资助金额:
    $ 28万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
RAPID: Collaborative Research: Multifaceted Data Collection on the Aftermath of the March 26, 2024 Francis Scott Key Bridge Collapse in the DC-Maryland-Virginia Area
RAPID:协作研究:2024 年 3 月 26 日 DC-马里兰-弗吉尼亚地区 Francis Scott Key 大桥倒塌事故后果的多方面数据收集
  • 批准号:
    2427233
  • 财政年份:
    2024
  • 资助金额:
    $ 28万
  • 项目类别:
    Standard Grant
RAPID: Collaborative Research: Multifaceted Data Collection on the Aftermath of the March 26, 2024 Francis Scott Key Bridge Collapse in the DC-Maryland-Virginia Area
RAPID:协作研究:2024 年 3 月 26 日 DC-马里兰-弗吉尼亚地区 Francis Scott Key 大桥倒塌事故后果的多方面数据收集
  • 批准号:
    2427232
  • 财政年份:
    2024
  • 资助金额:
    $ 28万
  • 项目类别:
    Standard Grant
RAPID: Collaborative Research: Multifaceted Data Collection on the Aftermath of the March 26, 2024 Francis Scott Key Bridge Collapse in the DC-Maryland-Virginia Area
RAPID:协作研究:2024 年 3 月 26 日 DC-马里兰-弗吉尼亚地区 Francis Scott Key 大桥倒塌事故后果的多方面数据收集
  • 批准号:
    2427231
  • 财政年份:
    2024
  • 资助金额:
    $ 28万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了