RI: Small: Learning to Retrieve Structured Information for Summarization and Translation of Unstructured Text

RI:小:学习检索结构化信息以摘要和翻译非结构化文本

基本信息

  • 批准号:
    2137396
  • 负责人:
  • 金额:
    $ 50万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2022
  • 资助国家:
    美国
  • 起止时间:
    2022-07-01 至 2025-06-30
  • 项目状态:
    未结题

项目摘要

Computers are becoming ever more adept at generating natural language, in settings that range from totally unconstrained (tell a random story) to highly constrained (translate a text from one language to another). In more constrained generation tasks, like translation and summarization, the status quo is for computers to be trained primarily, if not exclusively, on example input-output pairs, which can lead to natural-sounding but incorrect outputs. For example, a news summarizer could easily, but erroneously, replace the name of a victim in a terror attack with the name of his or her spouse. By contrast, when humans learn to translate and summarize, example input-output pairs make up only a small fraction of our "training data"; we also draw on a vast amount of background knowledge that we've either learned or can look up in sources. This project is building automatic translation and summarization systems that use knowledge sources to improve faithfulness and factual correctness, increasing the usability of such systems, which are already widely used for information access.In contrast to many previous approaches that try to shoehorn knowledge into the data (e.g., by inserting dictionary definitions into the training data as ersatz parallel sentences) or into the model (e.g., by trying to improve word embeddings), this project's approach is to make knowledge available to the generation system directly. It focuses on adding table data to summarization and dictionary data (which can be thought of as a kind of table) to translation, and on adding knowledge graphs to both summarization and translation. The approach has three stages, which mirror similar setups in many question-answering and dialogue systems. First, the project is developing novel methods for learning how to retrieve useful information from these sources. Second, retrieved knowledge is made available to the generation system by directly integrating it into the system's input using a graph-structured representation. Finally, novel extensions of graph-to-text transformers generate text from these augmented inputs. The project is also investigating systems that generate translated text augmented with information from their knowledge sources, which may improve information access by helping to bridge national and cultural barriers in ways that conventional MT has not been able to.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
计算机越来越擅长生成自然语言,从完全不受约束(讲述随机故事)到高度受约束(将文本从一种语言翻译为另一种语言)。在更受约束的生成任务中,如翻译和摘要,现状是计算机主要(如果不是唯一的话)在示例输入输出对上进行训练,这可能导致听起来自然但不正确的输出。例如,新闻摘要可以很容易地,但错误地,将恐怖袭击中受害者的名字替换为他或她配偶的名字。相比之下,当人类学习翻译和总结时,示例输入输出对只占我们“训练数据”的一小部分;我们还利用了大量的背景知识,这些知识要么是我们学到的,要么是我们可以在资源中查找的。该项目正在构建自动翻译和摘要系统,这些系统使用知识源来提高忠实性和事实正确性,提高此类系统的可用性,这些系统已经广泛用于信息访问。与许多以前试图将知识硬塞进数据的方法(例如,通过将字典定义作为替代平行句子插入到训练数据中)或插入到模型中(例如,通过尝试改进单词嵌入),该项目的方法是将知识直接提供给生成系统。它侧重于将表格数据添加到摘要中,将字典数据(可以认为是一种表格)添加到翻译中,并将知识图添加到摘要和翻译中。该方法有三个阶段,反映了许多问答和对话系统中类似的设置。首先,该项目正在开发新的方法来学习如何从这些来源检索有用的信息。第二,检索到的知识可用于生成系统直接集成到系统的输入使用图形结构的表示。最后,图形到文本转换器的新扩展从这些增强的输入生成文本。该项目还在调查生成翻译文本的系统,这些文本增加了来自其知识来源的信息,这可能通过帮助以传统MT无法实现的方式弥合国家和文化障碍来改善信息获取。该奖项反映了NSF的法定使命,并通过使用基金会的知识价值和更广泛的影响审查标准进行评估而被认为值得支持。

项目成果

期刊论文数量(12)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Exploring Contrast Consistency of Open-Domain Question Answering Systems on Minimally Edited Questions
探索开放域问答系统对最少编辑问题的对比度一致性
IfQA: A Dataset for Open-domain Question Answering under Counterfactual Presuppositions
IfQA:反事实预设下的开放域问答数据集
  • DOI:
    10.18653/v1/2023.emnlp-main.515
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Yu, Wenhao;Jiang, Meng;Clark, Peter;Sabharwal, Ashish
  • 通讯作者:
    Sabharwal, Ashish
Completing Taxonomies with Relation-Aware Mutual Attentions
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Qingkai Zeng;Zhihan Zhang;Jinfeng Lin;Meng Jiang
  • 通讯作者:
    Qingkai Zeng;Zhihan Zhang;Jinfeng Lin;Meng Jiang
Generate rather than Retrieve: Large Language Models are Strong Context Generators
  • DOI:
    10.48550/arxiv.2209.10063
  • 发表时间:
    2022-09
  • 期刊:
  • 影响因子:
    0
  • 作者:
    W. Yu;Dan Iter;Shuohang Wang;Yichong Xu;Mingxuan Ju;Soumya Sanyal;Chenguang Zhu;Michael Zeng;Meng Jiang
  • 通讯作者:
    W. Yu;Dan Iter;Shuohang Wang;Yichong Xu;Mingxuan Ju;Soumya Sanyal;Chenguang Zhu;Michael Zeng;Meng Jiang
Large Language Models are Built-in Autoregressive Search Engines
大型语言模型是内置的自回归搜索引擎
  • DOI:
    10.18653/v1/2023.findings-acl.167
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Ziems, Noah;Yu, Wenhao;Zhang, Zhihan;Jiang, Meng
  • 通讯作者:
    Jiang, Meng
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

David Chiang其他文献

Learning Context-free Languages with Nondeterministic Stack RNNs
使用非确定性堆栈 RNN 学习上下文无关语言
Efficiency through Auto-Sizing: Notre Dame NLP’s Submission to the WNGT 2019 Efficiency Task
通过自动调整大小提高效率:Notre Dame NLP 提交给 WNGT 2019 效率任务
  • DOI:
    10.18653/v1/d19-5634
  • 发表时间:
    2019
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Kenton Murray;Brian DuSell;David Chiang
  • 通讯作者:
    David Chiang
Mildly Context-Sensitive Grammars for Estimating Maximum Entropy Parsing Models
用于估计最大熵解析模型的轻度上下文相关语法
  • DOI:
  • 发表时间:
    2008
  • 期刊:
  • 影响因子:
    0
  • 作者:
    David Chiang
  • 通讯作者:
    David Chiang
Syntax-Based Attention Masking for Neural Machine Translation
用于神经机器翻译的基于语法的注意力掩蔽
  • DOI:
    10.18653/v1/2021.naacl-srw.7
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Colin McDonald;David Chiang
  • 通讯作者:
    David Chiang
We're Calling an Intervention: Taking a Closer Look at Language Model Adaptation to Different Types of Linguistic Variation
我们呼吁干预:仔细研究语言模型对不同类型语言变异的适应
  • DOI:
    10.48550/arxiv.2404.07304
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Aarohi Srivastava;David Chiang
  • 通讯作者:
    David Chiang

David Chiang的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('David Chiang', 18)}}的其他基金

Collaborative Research: RI: Small: NL(V)P:Natural Language (Variety) Processing
合作研究:RI:小型:NL(V)P:自然语言(品种)处理
  • 批准号:
    2125948
  • 财政年份:
    2021
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Collaborative Research: Language Documentation with an Artificial Intelligence (AI) Helper
协作研究:使用人工智能 (AI) 助手进行语言文档记录
  • 批准号:
    2109709
  • 财政年份:
    2021
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Collaborative Research: FMitF: Track I: Differentiable Probabilistic Programming with Recursive Structured Models
合作研究:FMitF:第一轨:使用递归结构化模型的可微概率规划
  • 批准号:
    2019291
  • 财政年份:
    2020
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
RI: Small: Language Induction meets Language Documentation: Leveraging bilingual aligned audio for learning and preserving languages
RI:小:语言归纳遇见语言文档:利用双语对齐音频来学习和保存语言
  • 批准号:
    1423406
  • 财政年份:
    2014
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
RI: Small: Language Induction meets Language Documentation: Leveraging bilingual aligned audio for learning and preserving languages
RI:小:语言归纳遇见语言文档:利用双语对齐音频来学习和保存语言
  • 批准号:
    1464553
  • 财政年份:
    2014
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
EAGER: Machine Translation for Language Preservation
EAGER:用于语言保护的机器翻译
  • 批准号:
    1144167
  • 财政年份:
    2011
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
EAGER: Phylo: Phylogenetic Reconstruction of Textual Histories
EAGER:Phylo:文本历史的系统发育重建
  • 批准号:
    1011778
  • 财政年份:
    2010
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant

相似国自然基金

昼夜节律性small RNA在血斑形成时间推断中的法医学应用研究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
tRNA-derived small RNA上调YBX1/CCL5通路参与硼替佐米诱导慢性疼痛的机制研究
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
Small RNA调控I-F型CRISPR-Cas适应性免疫性的应答及分子机制
  • 批准号:
    32000033
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
Small RNAs调控解淀粉芽胞杆菌FZB42生防功能的机制研究
  • 批准号:
    31972324
  • 批准年份:
    2019
  • 资助金额:
    58.0 万元
  • 项目类别:
    面上项目
变异链球菌small RNAs连接LuxS密度感应与生物膜形成的机制研究
  • 批准号:
    81900988
  • 批准年份:
    2019
  • 资助金额:
    21.0 万元
  • 项目类别:
    青年科学基金项目
肠道细菌关键small RNAs在克罗恩病发生发展中的功能和作用机制
  • 批准号:
    31870821
  • 批准年份:
    2018
  • 资助金额:
    56.0 万元
  • 项目类别:
    面上项目
基于small RNA 测序技术解析鸽分泌鸽乳的分子机制
  • 批准号:
    31802058
  • 批准年份:
    2018
  • 资助金额:
    26.0 万元
  • 项目类别:
    青年科学基金项目
Small RNA介导的DNA甲基化调控的水稻草矮病毒致病机制
  • 批准号:
    31772128
  • 批准年份:
    2017
  • 资助金额:
    60.0 万元
  • 项目类别:
    面上项目
基于small RNA-seq的针灸治疗桥本甲状腺炎的免疫调控机制研究
  • 批准号:
    81704176
  • 批准年份:
    2017
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
水稻OsSGS3与OsHEN1调控small RNAs合成及其对抗病性的调节
  • 批准号:
    91640114
  • 批准年份:
    2016
  • 资助金额:
    85.0 万元
  • 项目类别:
    重大研究计划

相似海外基金

Collaborative Research: RI: Small: Foundations of Few-Round Active Learning
协作研究:RI:小型:少轮主动学习的基础
  • 批准号:
    2313131
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Collaborative Research: RI: Small: Deep Constrained Learning for Power Systems
合作研究:RI:小型:电力系统的深度约束学习
  • 批准号:
    2345528
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Collaborative Research: RI: Small: End-to-end Learning of Fair and Explainable Schedules for Court Systems
合作研究:RI:小型:法院系统公平且可解释的时间表的端到端学习
  • 批准号:
    2232055
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
CISE-ANR: RI: Small: Numerically efficient reinforcement learning for constrained systems with super-linear convergence (NERL)
CISE-ANR:RI:小:具有超线性收敛 (NERL) 的约束系统的数值高效强化学习
  • 批准号:
    2315396
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Collaborative Research: RI: Small: End-to-end Learning of Fair and Explainable Schedules for Court Systems
合作研究:RI:小型:法院系统公平且可解释的时间表的端到端学习
  • 批准号:
    2232054
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
RI: Small: Approximate Inference for Planning and Reinforcement Learning
RI:小:规划和强化学习的近似推理
  • 批准号:
    2246261
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Collaborative Research: RI: Small: Foundations of Few-Round Active Learning
协作研究:RI:小型:少轮主动学习的基础
  • 批准号:
    2313130
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Collaborative Research: RI: Small: End-to-end Learning of Fair and Explainable Schedules for Court Systems
合作研究:RI:小型:法院系统公平且可解释的时间表的端到端学习
  • 批准号:
    2334936
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Collaborative Research: RI: AF: Small: Long-Term Impact of Fair Machine Learning under Strategic Individual Behavior
合作研究:RI:AF:小:战略性个人行为下公平机器学习的长期影响
  • 批准号:
    2202699
  • 财政年份:
    2022
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Collaborative Research: RI: Small: Advancing Theory and Practice of Trustworthy Machine Learning via Bi-Level Optimization
合作研究:RI:小型:通过双层优化推进可信机器学习的理论和实践
  • 批准号:
    2207052
  • 财政年份:
    2022
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了