ReproHum: Investigating Reproducibility of Human Evaluations in Natural Language Processing

ReproHum:研究自然语言处理中人类评估的再现性

基本信息

  • 批准号:
    EP/V05645X/1
  • 负责人:
  • 金额:
    $ 28.95万
  • 依托单位:
  • 依托单位国家:
    英国
  • 项目类别:
    Research Grant
  • 财政年份:
    2022
  • 资助国家:
    英国
  • 起止时间:
    2022 至 无数据
  • 项目状态:
    未结题

项目摘要

Over the past few months, we have laid the groundwork for the ReproHum project (summarised in the 'pre-project' column in the Work Plan document) with (i) a study of 20 years of human evaluation in NLG which reviewed and labelled 171 papers in detail, (ii) the development of a classification system for NLP evaluations, (iii) a proposal for a shared task for reproducibility of human evaluation in NLG, and (iv) a proposal for a workshop on human evaluation in NLP. We have built an international network of 20 research teams currently working on human evaluation who will actively contribute to this project (see Track Record section), making combined contributions in kind of over £80,000. This pre-project activity has created an advantageous starting position for the proposed work, and means we can 'hit the ground running' with the scientifically interesting core of the work.In this foundational project, our key goals are the development of a methodological framework for testing the reproducibility of human evaluations in NLP, and of a multi-lab paradigm for carrying out such tests in practice, carrying out the first study of this kind in NLP. We will (i) systematically diagnose the extent of the human evaluation reproducibility problem in NLP and survey related current work to address it (WP1); (ii) develop the theoretical and methodological underpinnings for reproducibility testing in NLP (WP2); (iii) test the suitability of the shared-task paradigm (uniformly popular across NLP fields) for reproducibility testing (WP3); (iv) create a design for multi-test reproducibility studies, and run the ReproHum study, an international large-scale multi-lab effort conducting 50+ individual, coordinated reproduction attempts on human evaluations in NLP from the past 10 years (WP4); and (v) nurture and build international consensus regarding how to address the reproducibility crisis, via technical meetings and growing our international network of researchers (WP5).
在过去的几个月里,我们已经为Reprofit项目奠定了基础(在工作计划文件的“项目前”一栏中进行了总结):(i)对NLG中20年的人类评价进行了研究,详细审查并标记了171篇论文,(ii)开发了NLP评价的分类系统,(iii)提出了一项关于NLG中人类评价重现性的共同任务的建议,以及(iv)关于自然语言处理中人的评价的研讨会的建议。我们已经建立了一个由20个研究团队组成的国际网络,目前正在进行人体评估,他们将积极为该项目做出贡献(见跟踪记录部分),共同贡献超过80,000英镑。这个项目前活动为我们的工作创造了一个有利的起点,也意味着我们可以“立即开始”这项工作的科学核心。在这个基础项目中,我们的主要目标是开发一个方法框架,用于测试自然语言处理中人类评估的可重复性,以及一个多实验室范式,用于在实践中进行此类测试,这是NLP领域第一次进行此类研究。我们将(i)系统地诊断自然语言处理中人类评估再现性问题的程度,并调查相关的当前工作以解决它(WP 1);(ii)发展自然语言处理中再现性测试的理论和方法基础(WP 2);(iii)测试共享任务范式的适用性(在NLP领域普遍流行)用于再现性测试(WP 3);(iv)创建多测试再现性研究的设计,并运行再现性研究,这是一项国际大规模多实验室工作,进行50多个个体,在过去10年中,NLP在人类评估方面的协调再现尝试(WP 4);以及(v)通过技术会议和发展我们的国际研究人员网络,培养和建立关于如何解决再现性危机的国际共识(WP 5)。

项目成果

期刊论文数量(4)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
The 2nd Workshop on Human Evaluation of NLP Systems (HumEval 2022)
第二届 NLP 系统人类评估研讨会 (HumEval 2022)
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    A. Belz
  • 通讯作者:
    A. Belz
A Metrological Perspective on Reproducibility in NLP*
NLP 再现性的计量学视角*
  • DOI:
    10.1162/coli_a_00448
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    9.3
  • 作者:
    Belz A
  • 通讯作者:
    Belz A
Common Flaws in Running Human Evaluation Experiments in NLP
NLP 人类评估实验的常见缺陷
  • DOI:
    10.1162/coli_a_00508
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    9.3
  • 作者:
    Thomson C
  • 通讯作者:
    Thomson C
The 2022 ReproGen Shared Task on Reproducibility of Evaluations in NLG: Overview and Results
2022 年 ReproGen NLG 评估重现性共享任务:概述和结果
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    A. Belz
  • 通讯作者:
    A. Belz
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Anya Belz其他文献

Generating Irish Text with a Flexible Plug-and-Play Architecture
使用灵活的即插即用架构生成爱尔兰语文本
The ReproGen Shared Task on Reproducibility of Human Evaluations in NLG: Overview and Results
ReproGen 关于 NLG 中人类评估可重复性的共享任务:概述和结果
  • DOI:
    10.18653/v1/2021.inlg-1.24
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Anya Belz;Anastasia Shimorina;Shubham Agarwal;Ehud Reiter
  • 通讯作者:
    Ehud Reiter
A Pipeline for Extracting Abstract Dependency Templates for Data-to-Text Natural Language Generation
用于提取数据到文本自然语言生成的抽象依赖模板的管道
Towards a Consensus Taxonomy for Annotating Errors in Automatically Generated Text
走向用于注释自动生成文本中的错误的共识分类法
Quantified Reproducibility Assessment of NLP Results
NLP 结果的量化再现性评估

Anya Belz的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Anya Belz', 18)}}的其他基金

Generation Challenges 2011: Towards a Surface Realisation Shared Task
2011 年世代挑战:迈向表面实现共享任务
  • 批准号:
    EP/I032320/1
  • 财政年份:
    2011
  • 资助金额:
    $ 28.95万
  • 项目类别:
    Research Grant
EPSRC Network on Vision and Language (V&L Net)
EPSRC 视觉和语言网络 (V
  • 批准号:
    EP/H018557/1
  • 财政年份:
    2010
  • 资助金额:
    $ 28.95万
  • 项目类别:
    Research Grant
Generation Challenges 2010
2010 年世代挑战
  • 批准号:
    EP/H032886/1
  • 财政年份:
    2010
  • 资助金额:
    $ 28.95万
  • 项目类别:
    Research Grant
Generation Challenges 2009
2009 年世代挑战
  • 批准号:
    EP/G03995X/1
  • 财政年份:
    2009
  • 资助金额:
    $ 28.95万
  • 项目类别:
    Research Grant
REG Challenge 2008: A Shared Task Evaluation Event for Referring Expression Generation
REG Challenge 2008:参考表达式生成的共享任务评估活动
  • 批准号:
    EP/F059760/1
  • 财政年份:
    2008
  • 资助金额:
    $ 28.95万
  • 项目类别:
    Research Grant
Prodigy: Probabilistic Deep Generation
Prodigy:概率深度生成
  • 批准号:
    EP/E029116/1
  • 财政年份:
    2007
  • 资助金额:
    $ 28.95万
  • 项目类别:
    Research Grant

相似海外基金

Investigating bioengineering approaches to produce immuno-modulatory mesenchymal stromal cells and their extracellular vesicle
研究生产免疫调节间充质基质细胞及其细胞外囊泡的生物工程方法
  • 批准号:
    2608627
  • 财政年份:
    2025
  • 资助金额:
    $ 28.95万
  • 项目类别:
    Studentship
"Small performances": investigating the typographic punches of John Baskerville (1707-75) through heritage science and practice-based research
“小型表演”:通过遗产科学和基于实践的研究调查约翰·巴斯克维尔(1707-75)的印刷拳头
  • 批准号:
    AH/X011747/1
  • 财政年份:
    2024
  • 资助金额:
    $ 28.95万
  • 项目类别:
    Research Grant
Investigating Dark Matter in Semi-Visible Jets at CERN
欧洲核子研究中心研究半可见喷流中的暗物质
  • 批准号:
    2907986
  • 财政年份:
    2024
  • 资助金额:
    $ 28.95万
  • 项目类别:
    Studentship
Investigating liquid-like mineral phases in crowded media
研究拥挤介质中的液态矿物相
  • 批准号:
    EP/Y022653/1
  • 财政年份:
    2024
  • 资助金额:
    $ 28.95万
  • 项目类别:
    Research Grant
Investigating the acceptability and accuracy of cervical screening and self-sampling in postnatal women to coincide with the 6-week postnatal check-up
调查产后妇女进行宫颈筛查和自我采样以配合产后 6 周检查的可接受性和准确性
  • 批准号:
    MR/X030776/1
  • 财政年份:
    2024
  • 资助金额:
    $ 28.95万
  • 项目类别:
    Research Grant
Investigating the role of complement component 5a in ANCA-associated vasculitis
研究补体成分 5a 在 ANCA 相关血管炎中的作用
  • 批准号:
    MR/Y000854/1
  • 财政年份:
    2024
  • 资助金额:
    $ 28.95万
  • 项目类别:
    Fellowship
Investigating ubiquitination-regulated cell cycle events underpinning malaria transmission
研究泛素化调节的细胞周期事件支撑疟疾传播
  • 批准号:
    MR/Y013174/1
  • 财政年份:
    2024
  • 资助金额:
    $ 28.95万
  • 项目类别:
    Research Grant
Collaborative Research: Investigating Southern Ocean Sea Surface Temperatures and Freshening during the Late Pliocene and Pleistocene along the Antarctic Margin
合作研究:调查上新世晚期和更新世沿南极边缘的南大洋海面温度和新鲜度
  • 批准号:
    2313120
  • 财政年份:
    2024
  • 资助金额:
    $ 28.95万
  • 项目类别:
    Standard Grant
CAREER: Investigating Biogeographic Hypotheses and Drivers of Diversification in Neotropical Harvestmen (Opiliones: Laniatores) Using Ultraconserved Elements
职业:利用超保守元素研究新热带收获者(Opiliones:Laniatores)多样化的生物地理学假设和驱动因素
  • 批准号:
    2337605
  • 财政年份:
    2024
  • 资助金额:
    $ 28.95万
  • 项目类别:
    Continuing Grant
Investigating Multi-Scale Dynamical Processes Amplifying Storm Surges
研究放大​​风暴潮的多尺度动力学过程
  • 批准号:
    2342516
  • 财政年份:
    2024
  • 资助金额:
    $ 28.95万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了