RI: Multi-Level Modeling of Language and Translation

RI:语言和翻译的多级建模

基本信息

  • 批准号:
    0713448
  • 负责人:
  • 金额:
    $ 40.12万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Continuing Grant
  • 财政年份:
    2007
  • 资助国家:
    美国
  • 起止时间:
    2007-08-01 至 2012-07-31
  • 项目状态:
    已结题

项目摘要

Previous approaches to statistical machine translation (SMT) haveemployed phrase-based models which represent phrases as sequences offully-inflected words, and are otherwise devoid of linguisticdetail. Such approaches are unable to generalize and essentiallyrely on memorizing the translations of words and phrases that areobserved in training data.This project aims to improve the quality of SMT through theintroduction of more sophisticated models which represent phrasesusing multiple levels of information. This can include basiclinguistic information such as part of speech, lemmas, and agreementinformation (case, number, person), as well as more sophisticatedlinguistic detail including semantic classes, argument structure,co-reference, phrase boundaries, and information propagated fromsyntactic heads.By annotating all data with this information and extending modelsappropriately, there is the potential to learn much more fromtraining than was possible under previous approaches. There is nowthe potential to learn translations of unseen words if other forms ofthe words occur; it is now possible to learn general facts about a language'sword order; it is now feasible to use linguistic context to generategrammatical output. Such generalization has the potential to resultin much higher quality translation, especially for languages thatonly have small amounts of training data. It therefore represents asignificant advance over previous approaches to SMT.Multi-level models have the potential for wide-ranging impact onall language technologies. Simultaneous modeling of differentlevels of representation is an extremely useful and natural way ofdescribing language. This project is developing a general frameworkfor the creation of multi-level probabilistic models of language andtranslation, and exploring its application to tasks beyondtranslation including generation, paraphrasing, and the automaticevaluation of natural language technologies.
以往的统计机器翻译方法采用的是基于短语的模型,将短语表示为具有全屈折变化的单词序列,并且缺乏语言细节。 这种方法无法推广,并且基本上依赖于记忆在训练数据中观察到的单词和短语的翻译。本项目旨在通过引入更复杂的模型来提高SMT的质量,这些模型使用多层次的信息来表示短语。 这可以包括基本的语言信息,如词性、词元和一致性信息(格,数,人称),以及更详细的语言细节,包括语义类,论元结构,共指,短语边界和从句法中心词传播的信息。通过用这些信息注释所有数据并适当地扩展模型,从培训中可以学到比以往方法更多的东西。 现在有可能学习翻译看不见的单词,如果其他形式的单词出现;现在有可能学习关于语言的剑顺序的一般事实;现在有可能使用语言上下文来生成语法输出。这种泛化有可能导致更高质量的翻译,特别是对于只有少量训练数据的语言。 因此,它代表了一个显着的进步,以前的方法SMT。多层次模型有可能对所有语言技术的广泛影响。 不同层次的表示的同时建模是描述语言的一种非常有用和自然的方式。 该项目正在开发一个通用框架,用于创建语言和翻译的多层概率模型,并探索其在翻译以外的任务中的应用,包括自然语言技术的生成、释义和自动评估。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

David Yarowsky其他文献

Disambiguation of Standardized Personal Name Variants
标准化个人姓名变体的歧义消除
  • DOI:
  • 发表时间:
    2007
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Patricia Driscoll;David Yarowsky
  • 通讯作者:
    David Yarowsky
A two-level syntax-based approach to Arabic-English statistical machine translation
基于两级语法的阿拉伯语-英语统计机器翻译方法
  • DOI:
  • 发表时间:
    2003
  • 期刊:
  • 影响因子:
    0
  • 作者:
    C. Schafer;David Yarowsky
  • 通讯作者:
    David Yarowsky
Very-large Scale Parsing and Normalization of Wiktionary Morphological Paradigms
维基词典形态范式的超大规模解析和规范化
Measuring the Similarity of Grammatical Gender Systems by Comparing Partitions
通过比较分区来衡量语法性别系统的相似性
  • DOI:
    10.18653/v1/2020.emnlp-main.456
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Arya D. McCarthy;Adina Williams;Shijia Liu;David Yarowsky;Ryan Cotterell
  • 通讯作者:
    Ryan Cotterell
Language Independent, Minimally Supervised Induction of Lexical Probabilities
独立于语言的、最小监督的词汇概率归纳
  • DOI:
    10.3115/1075218.1075253
  • 发表时间:
    2000
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Silviu Cucerzan;David Yarowsky
  • 通讯作者:
    David Yarowsky

David Yarowsky的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('David Yarowsky', 18)}}的其他基金

Scientific Community On-Site Assessment Workshop for Robust Intelligence
科学界鲁棒智能现场评估研讨会
  • 批准号:
    0839056
  • 财政年份:
    2008
  • 资助金额:
    $ 40.12万
  • 项目类别:
    Standard Grant
CAREER: Resolving Lexical Ambiguities in Natural Language Processing
职业:解决自然语言处理中的词汇歧义
  • 批准号:
    9985033
  • 财政年份:
    2000
  • 资助金额:
    $ 40.12万
  • 项目类别:
    Continuing Grant

相似国自然基金

基于Multi-Pass Cell的高功率皮秒激光脉冲非线性压缩关键技术研究
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
Multi-decadeurbansubsidencemonitoringwithmulti-temporaryPStechnique
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    80 万元
  • 项目类别:
High-precision force-reflected bilateral teleoperation of multi-DOF hydraulic robotic manipulators
  • 批准号:
    52111530069
  • 批准年份:
    2021
  • 资助金额:
    10 万元
  • 项目类别:
    国际(地区)合作与交流项目
基于8色荧光标记的Multi-InDel复合检测体系在降解混合检材鉴定的应用研究
  • 批准号:
  • 批准年份:
    2021
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
大规模非确定图数据分析及其Multi-Accelerator并行系统架构研究
  • 批准号:
    62002350
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
3D multi-parameters CEST联合DKI对椎间盘退变机制中微环境微结构改变的定量研究
  • 批准号:
    82001782
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
基于multi-SNP标记及不拆分策略的复杂混合样本身份溯源研究
  • 批准号:
  • 批准年份:
    2020
  • 资助金额:
    56 万元
  • 项目类别:
    面上项目
高速Multi-bit/cycle SAR ADC性能优化理论研究
  • 批准号:
    62004023
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
大地电磁强噪音压制的Multi-RRMC技术及其在青藏高原东南缘—印支块体地壳流追踪中的应用
  • 批准号:
  • 批准年份:
    2020
  • 资助金额:
    万元
  • 项目类别:
    国际(地区)合作与交流项目

相似海外基金

CAREER: Mitigating the Lack of Labeled Training Data in Machine Learning Based on Multi-level Optimization
职业:基于多级优化缓解机器学习中标记训练数据的缺乏
  • 批准号:
    2339216
  • 财政年份:
    2024
  • 资助金额:
    $ 40.12万
  • 项目类别:
    Continuing Grant
A Multi-Level Investigation of Engagement in Technology Transfer
参与技术转让的多层次调查
  • 批准号:
    2345612
  • 财政年份:
    2024
  • 资助金额:
    $ 40.12万
  • 项目类别:
    Standard Grant
PROSPERH - Promoting Positive Mental and Physical Health at Work in a Changing Environment: A Multi-level Approach
PROSPERH - 在不断变化的环境中促进工作中积极的心理和身体健康:多层次的方法
  • 批准号:
    10101188
  • 财政年份:
    2024
  • 资助金额:
    $ 40.12万
  • 项目类别:
    EU-Funded
Promoting Positive Mental and Physical Health at Work in a Changing Environment: A Multi-level Approach
在不断变化的环境中促进工作中积极的心理和身体健康:多层次的方法
  • 批准号:
    10109311
  • 财政年份:
    2024
  • 资助金额:
    $ 40.12万
  • 项目类别:
    EU-Funded
Multi-level exploration of biological nitrification inhibition in rice for improved sustainability of crop production
水稻生物硝化抑制的多层次探索,提高作物生产的可持续性
  • 批准号:
    BB/Y00633X/1
  • 财政年份:
    2024
  • 资助金额:
    $ 40.12万
  • 项目类别:
    Research Grant
Multi-level mapping of mitochondrial quality control pathways in Parkinson's dopaminergic neurons
帕金森多巴胺能神经元线粒体质量控制途径的多级图谱
  • 批准号:
    MR/Y014987/1
  • 财政年份:
    2024
  • 资助金额:
    $ 40.12万
  • 项目类别:
    Research Grant
Understanding multi-level impact of male-derived sex peptide on female reproductive behaviours
了解男性性肽对女性生殖行为的多层次影响
  • 批准号:
    BB/Y006364/1
  • 财政年份:
    2024
  • 资助金额:
    $ 40.12万
  • 项目类别:
    Research Grant
Novel Analytical and Computational Approaches for Fusion and Analysis of Multi-Level and Multi-Scale Networks Data
用于多层次和多尺度网络数据融合和分析的新分析和计算方法
  • 批准号:
    2311297
  • 财政年份:
    2023
  • 资助金额:
    $ 40.12万
  • 项目类别:
    Standard Grant
Promoting social INNovation to renew multi-level and cross-sector WATER governance
推动社会创新,更新多层次、跨部门的水治理
  • 批准号:
    10066637
  • 财政年份:
    2023
  • 资助金额:
    $ 40.12万
  • 项目类别:
    EU-Funded
Multi-level intervention to promote healthy beverage choices among Navajo families
多层次干预促进纳瓦霍家庭选择健康饮料
  • 批准号:
    10776269
  • 财政年份:
    2023
  • 资助金额:
    $ 40.12万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了