Biomedical Language Processing Writ Large: Scaling to all of PubMedCentral
生物医学语言处理显而易见:扩展到所有 PubMedCentral
基本信息
- 批准号:8318224
- 负责人:
- 金额:$ 57.24万
- 依托单位:
- 依托单位国家:美国
- 项目类别:
- 财政年份:2006
- 资助国家:美国
- 起止时间:2006-09-15 至 2014-09-29
- 项目状态:已结题
- 来源:
- 关键词:BiologicalCollectionComplexComputer AnalysisComputersDataData SetDatabasesDevelopmentDiseaseEvaluation ResearchFundingGene ExpressionGenesGenomeGoalsHarvestHealthHigh Performance ComputingHumanImageryJournalsKnowledgeLanguageLinguisticsLiteratureMethodsMolecularNatural Language ProcessingNaturePharmaceutical PreparationsProcessPublicationsReadingResearchResearch PersonnelResolutionResourcesStagingSystemTechniquesTechnologyTextWorkbiomedical ontologyclinically relevantinformation organizationknowledge baselanguage processingscale uptext searchingtool
项目摘要
DESCRIPTION (provided by applicant):
Recent developments in text mining research, and in scientific publication, have brought us to the moment when the long-standing potential of natural language processing technology to benefit biomedical researchers may finally be realized. Technological advances, recent results in computational linguistics, maturation of biomedical ontology, and the advent of resources such as PubMedCentral have set the stage for an attempt at an integrated computational analysis of a large proportion of the full text biomedical literature. Such an analysis has the potential to dramatically extend the way that biomedical researchers can effectively use the scientific literature, particularly in the analysis of genome-scale datasets, broadly accelerating and increasing the efficiency of scientific discovery. We hypothesize that it is now possible to extract a wide variety of ontologically-grounded entities and relationships by processing the entire PubMedCentral document collection accurately and with good coverage, to use this extracted information to produce new genres of scientifically valuable tools and analysis techniques, and to demonstrate its utility in the analysis of genome-scale data. The challenges that we plan to overcome range from fundamental linguistic issues (e.g. cross- document coreference resolution) to high-performance computing (e.g. scaling up integrated processing to include millions of complex documents), to fielding practical systems that can exploit enormous knowledge-bases to accelerate the analysis of very large molecular data sets.
描述(由申请人提供):
文本挖掘研究和科学出版物的最新发展将我们带到了这样一个时刻,即自然语言处理技术造福生物医学研究人员的长期潜力可能最终实现。技术进步、计算语言学的最新成果、生物医学本体论的成熟以及PubMedCentral等资源的出现,为尝试对大部分全文生物医学文献进行集成计算分析奠定了基础。这样的分析有可能极大地扩展生物医学研究人员有效利用科学文献的方式,特别是在分析基因组规模的数据集时,广泛地加速和提高科学发现的效率。我们假设,现在可以通过准确和良好地处理整个PubMedCentral文档集来提取各种基于本体的实体和关系,使用这些提取的信息来产生新的具有科学价值的工具和分析技术,并展示其在基因组规模数据分析中的效用。我们计划克服的挑战从基本的语言问题(例如跨文档共指关系解析)到高性能计算(例如扩大集成处理以包括数百万个复杂的文档),再到部署可以利用巨大的知识库来加速对非常大的分子数据集的分析的实用系统。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
LAWRENCE E HUNTER其他文献
LAWRENCE E HUNTER的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('LAWRENCE E HUNTER', 18)}}的其他基金
Scientific Questions: A New Target for Biomedical NLP
科学问题:生物医学 NLP 的新目标
- 批准号:
10223438 - 财政年份:2020
- 资助金额:
$ 57.24万 - 项目类别:
Scientific Questions: A New Target for Biomedical NLP
科学问题:生物医学 NLP 的新目标
- 批准号:
10454968 - 财政年份:2020
- 资助金额:
$ 57.24万 - 项目类别:
Colorado Biomedical Informatics Training Program
科罗拉多州生物医学信息学培训计划
- 批准号:
9526127 - 财政年份:2017
- 资助金额:
$ 57.24万 - 项目类别:
Automated Literature Mining for Validation of High-Throughput Function Prediction
用于验证高通量函数预测的自动文献挖掘
- 批准号:
7843633 - 财政年份:2009
- 资助金额:
$ 57.24万 - 项目类别:
Construction of a Full Text Corpus for Biomedical Text Mining
生物医学文本挖掘全文语料库的构建
- 批准号:
7872692 - 财政年份:2009
- 资助金额:
$ 57.24万 - 项目类别:
Computational Bioscience Program Training Grant
计算生物科学计划培训补助金
- 批准号:
7824978 - 财政年份:2009
- 资助金额:
$ 57.24万 - 项目类别:
Computational Bioscience Program Training Grant
计算生物科学计划培训补助金
- 批准号:
7877947 - 财政年份:2007
- 资助金额:
$ 57.24万 - 项目类别:
Colorado Biomedical Informatics Training Program
科罗拉多州生物医学信息学培训计划
- 批准号:
8261523 - 财政年份:2007
- 资助金额:
$ 57.24万 - 项目类别:
相似海外基金
Morphologically Complex Data Collection and Analysis for Improving Lexicographic Models
用于改进词典编纂模型的形态复杂数据收集和分析
- 批准号:
2125197 - 财政年份:2021
- 资助金额:
$ 57.24万 - 项目类别:
Standard Grant
netCanvas: Development, Hardening, and Dissemination of a Software Suite for the Collection of Complex Network and Contextual Data in HIV and Drug Research
netCanvas:开发、强化和传播用于收集 HIV 和药物研究中复杂网络和上下文数据的软件套件
- 批准号:
9306043 - 财政年份:2016
- 资助金额:
$ 57.24万 - 项目类别:
netCanvas: Development, Hardening, and Dissemination of a Software Suite for the Collection of Complex Network and Contextual Data in HIV and Drug Research
netCanvas:开发、强化和传播用于收集 HIV 和药物研究中复杂网络和上下文数据的软件套件
- 批准号:
9899234 - 财政年份:2016
- 资助金额:
$ 57.24万 - 项目类别:
DynSyst_Special_Topics: Multiscale Dynamics and Information in Data Collection and Assimilation for Complex Systems
DynSyst_Special_Topics:复杂系统数据收集和同化中的多尺度动力学和信息
- 批准号:
1030144 - 财政年份:2010
- 资助金额:
$ 57.24万 - 项目类别:
Standard Grant
HIGH RESOLUTION DATA COLLECTION FROM CRYSTALS OF A ASF1/HIRA COMPLEX
从 ASF1/HIRA 复合体晶体中采集高分辨率数据
- 批准号:
7357754 - 财政年份:2006
- 资助金额:
$ 57.24万 - 项目类别:
HG-MAD DATA COLLECTION OF PF FIBRILLARIN-NOP5P COMPLEX
PF 纤维素-NOP5P 复合物的 HG-MAD 数据收集
- 批准号:
7358924 - 财政年份:2006
- 资助金额:
$ 57.24万 - 项目类别:
DATA COLLECTION ON PHOSPHODIESTERASE 4 IN COMPLEX WITH INHIBITORS
磷酸二酯酶 4 与抑制剂复合物的数据收集
- 批准号:
7182476 - 财政年份:2005
- 资助金额:
$ 57.24万 - 项目类别:
HUMAN FACTOR VIIA & SOLUBLE TISSUE FACTOR & BX1 COMPLEX DATA COLLECTION
人为因素VIIA
- 批准号:
6586744 - 财政年份:2002
- 资助金额:
$ 57.24万 - 项目类别:
HIGH RESOLUTION DATA COLLECTION OF SUBSTRATE COMPLEX OF P450BM 3 HEME DOMAIN
P450BM 3 血红素结构域底物复合物的高分辨率数据收集
- 批准号:
6586645 - 财政年份:2002
- 资助金额:
$ 57.24万 - 项目类别:
HIGH RESOLUTION DATA COLLECTION OF SUBSTRATE COMPLEX OF P450BM 3 HEME DOMAIN
P450BM 3 血红素结构域底物复合物的高分辨率数据收集
- 批准号:
6658612 - 财政年份:2002
- 资助金额:
$ 57.24万 - 项目类别:














{{item.name}}会员




