Reducing the Corpus Annotation Bottleneck for Natural Language Learning

减少自然语言学习的语料库标注瓶颈

基本信息

  • 批准号:
    0208028
  • 负责人:
  • 金额:
    $ 50万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Continuing Grant
  • 财政年份:
    2002
  • 资助国家:
    美国
  • 起止时间:
    2002-09-15 至 2006-08-31
  • 项目状态:
    已结题

项目摘要

Progress in the field of natural language processing (NLP) is currently limited, at least in part, by the speed with which new annotated corpora can be created. In addition, there is evidence that achieving the next level of performance in automated text understanding will require annotated training corpora that are orders of magnitude larger than those currently available. In short, there exists a corpus annotation bottleneck in building robust, accurate NLP system components. The PI proposes, therefore, to investigate machine learning paradigms that will significantly reduce human annotation costs while maintaining or improving the accuracy of the natural language learning algorithms that are trained on the acquired corpora. The project will (1) study the application of active learning (Cohn et al., 1994) and weakly supervised bootstrapping algorithms like co-training (Blum & Mitchell, 1998) on a set of representative problems in natural language processing, (2) identify the benefits and limitations of these approaches for reducing the manual annotation burden during the creation of large training corpora for natural language learning, and (3) develop a cooperative learning framework (Pierce & Cardie, 2002) that combines active and weakly supervised learning in an attempt to more effectively interleave manual and automated linguistic annotation efforts.
自然语言处理(NLP)领域的进展目前受到创建新注释语料库的速度的限制,至少部分是这样。此外,有证据表明,要实现自动文本理解的下一级性能,将需要比目前可用的训练语料库大几个数量级的标注训练语料库。简而言之,在构建健壮、准确的NLP系统组件方面存在语料库标注瓶颈。因此,PI建议研究机器学习范例,这些范例将大大降低人工标注成本,同时保持或提高在所获得的语料库上训练的自然语言学习算法的准确性。该项目将(1)研究主动学习(Cohn等人,1994)和弱监督自举算法(如联合训练)在自然语言处理中的一组代表性问题上的应用,(2)确定这些方法在创建大型自然语言学习训练语料库期间减少人工标注负担的好处和局限性,以及(3)开发一个合作学习框架(Piells&Cardie,2002),该框架将主动学习和弱监督学习相结合,试图更有效地交互手动和自动语言标注工作。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Claire Cardie其他文献

BeSt: The Belief and Sentiment Corpus
最佳:信念和情感语料库
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Jennifer Tracey;Owen Rambow;Michael Arrigo;Claire Cardie;Adam Dalton;H. Dang;Mona T. Diab;Bonnie Dorr;Louise Guthrie;M. Markowska;S. Muresan;Vinodkumar Prabhakaran;Samira Shaikh;T. Strzalkowski;Janyce Wiebe
  • 通讯作者:
    Janyce Wiebe
Using natural language processing to improve eRulemaking: project highlight
使用自然语言处理改进电子规则制定:项目亮点
  • DOI:
    10.1145/1146598.1146651
  • 发表时间:
    2006
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Claire Cardie;Cynthia Farina;Thomas Bruce
  • 通讯作者:
    Thomas Bruce
Embedded machine learning systems for natural language processing: a general framework
  • DOI:
    10.1007/3-540-60925-3_56
  • 发表时间:
    1995
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Claire Cardie
  • 通讯作者:
    Claire Cardie
Using Cognitive Biases to Guide Feature Set Selection
使用认知偏差来指导特征集选择
  • DOI:
  • 发表时间:
    1992
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Claire Cardie
  • 通讯作者:
    Claire Cardie
Understanding the Effect of Gender and Stance in Opinion Expression in Debates on “Abortion”
了解性别和立场对“堕胎”辩论中意见表达的影响
  • DOI:
  • 发表时间:
    2018
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Esin Durmus;Claire Cardie
  • 通讯作者:
    Claire Cardie

Claire Cardie的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Claire Cardie', 18)}}的其他基金

RI: Small: Collaborative Research: Computational Methods for Argument Mining: Extraction, Aggregation, and Generation
RI:小型:协作研究:参数挖掘的计算方法:提取、聚合和生成
  • 批准号:
    1815455
  • 财政年份:
    2018
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
HCC: Large: Social-Computational Support of Civic Engagement in Public Policymaking
HCC:大:公民参与公共政策制定的社会计算支持
  • 批准号:
    1314778
  • 财政年份:
    2013
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
SoCS: Collaborative Research: Leveraging Others' Insights to Improve Collaborative Analysis
SoCS:协作研究:利用他人的见解来改进协作分析
  • 批准号:
    0968450
  • 财政年份:
    2010
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Natural Language Processing Support for eRulemaking
对电子规则制定的自然语言处理支持
  • 批准号:
    0535099
  • 财政年份:
    2005
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
POWRE-Integrating Natural Language Processing and Information Retrieval for Intelligent Text-Processing
POWRE-集成自然语言处理和信息检索以实现智能文本处理
  • 批准号:
    0074896
  • 财政年份:
    2000
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Knowledge Acquisition for Natural Language Understanding
自然语言理解的知识获取
  • 批准号:
    9624639
  • 财政年份:
    1996
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
Computational Aspects of Cognitive Science Focus Area: Human Computation
认知科学的计算方面重点领域:人类计算
  • 批准号:
    9454149
  • 财政年份:
    1994
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant

相似海外基金

Annotation of syntactic and semantic information for a corpus of Old Japanese
古日语语料库的句法和语义信息注释
  • 批准号:
    18K00560
  • 财政年份:
    2018
  • 资助金额:
    $ 50万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Development of methods for video corpus construction and time series annotation for video scene retrieval
视频场景检索的视频语料库构建和时间序列标注方法的开发
  • 批准号:
    17K12687
  • 财政年份:
    2017
  • 资助金额:
    $ 50万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
Syntactic and Semantic Information Annotation on the Corpus of Historical Japanese
历史日语语料库的句法和语义信息注释
  • 批准号:
    17H00917
  • 财政年份:
    2017
  • 资助金额:
    $ 50万
  • 项目类别:
    Grant-in-Aid for Scientific Research (A)
Interactive distributed corpus exploration and annotation infrastructure for large corpora and knowledge-bases
适用于大型语料库和知识库的交互式分布式语料库探索和注释基础设施
  • 批准号:
    315979217
  • 财政年份:
    2016
  • 资助金额:
    $ 50万
  • 项目类别:
    Research data and software (Scientific Library Services and Information Systems)
Construction and Analysis of Adjective's Syntactic and Semantic Annotation of the 'Corpus of Historical Japanese' Heian Period Series
《日本历史语料库》平安时代系列形容词句法语义注释的构建与分析
  • 批准号:
    15K16764
  • 财政年份:
    2015
  • 资助金额:
    $ 50万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
Research on annotation for the development of a parsed corpus of Japanese with a special focus on complex sentences
以复杂句子为重点的日语解析语料库开发注释研究
  • 批准号:
    15H03210
  • 财政年份:
    2015
  • 资助金额:
    $ 50万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
CI-P: Toward Unified Tool Support for Linguistic Corpus Annotation
CI-P:走向语言语料库标注的统一工具支持
  • 批准号:
    1536043
  • 财政年份:
    2014
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Syntactic and prosodic annotation on french spoken corpus
法语口语语料库的句法和韵律注释
  • 批准号:
    26370476
  • 财政年份:
    2014
  • 资助金额:
    $ 50万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
CI-P: Toward Unified Tool Support for Linguistic Corpus Annotation
CI-P:走向语言语料库标注的统一工具支持
  • 批准号:
    1405863
  • 财政年份:
    2014
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Corpus of Mesopotamian anti-witchcraft rituals: text editions, lexical annotation and indexing, historical and literary analysis
美索不达米亚反巫术仪式语料库:文本版本、词汇注释和索引、历史和文学分析
  • 批准号:
    216046777
  • 财政年份:
    2012
  • 资助金额:
    $ 50万
  • 项目类别:
    Research Grants
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了