Neural Machine Translation for User-Generated Content

用户生成内容的神经机器翻译

基本信息

项目摘要

The main achievement for the second year of this research is a new method to extend monolingual data in a low-resource domain and style (e.g., tweets on the topic of COVID-19) to generate larger data for training NMT. For instance, given a a small set of Japanese tweets (e.g., 1000 tweets) about the COVID-19 crisis, that is too small to train NMT, this method artificially extends it to million tweets on the same topic and makes it useful to train better NMT to translate tweets. Using this artificial data to train NMT yields improvements of NMT that becomes better at translating texts even for domain and style for which very few data is available. Experiments have been successfully conducted in various domains and styles (medical, IT, news, tweets, online discussions), and languages (French, German, Japanese). This work has also been extended for "personalizing" NMT, i.e., adapt NMT so it translates texts written by a specific person while preserving the characteristics of writing of this person.
本研究第二年的主要成果是一种在低资源领域和风格(例如,关于COVID-19主题的推文)以生成用于训练NMT的更大数据。例如,给定一小部分日本推文(例如,1000条推文),这对于训练NMT来说太小了,这种方法人为地将其扩展到同一主题的数百万条推文,并使其有助于训练更好的NMT来翻译推文。 使用这种人工数据来训练NMT会产生NMT的改进,即使对于数据很少的领域和风格,NMT也能更好地翻译文本。实验已经成功地进行了各种领域和风格(医疗,IT,新闻,推文,在线讨论)和语言(法语,德语,日语)。这项工作也被扩展到“个性化”NMT,即,调整NMT,使其翻译由特定人撰写的文本,同时保留此人的写作特征。

项目成果

期刊论文数量(6)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Altering Parallel Data into User-Generated Texts with Zero-Shot Neural Machine Translation
通过零样本神经机器翻译将并行数据更改为用户生成的文本
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Marie Benjamin;Fujita Atsushi
  • 通讯作者:
    Fujita Atsushi
Scientific Credibility of Machine Translation Research: A Meta-Evaluation of 769 Papers
  • DOI:
    10.18653/v1/2021.acl-long.566
  • 发表时间:
    2021-06
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Benjamin Marie;Atsushi Fujita;Raphaël Rubino
  • 通讯作者:
    Benjamin Marie;Atsushi Fujita;Raphaël Rubino
Extremely low-resource neural machine translation for Asian languages
  • DOI:
    10.1007/s10590-020-09258-6
  • 发表时间:
    2021-02-10
  • 期刊:
  • 影响因子:
    1.9
  • 作者:
    Rubino, Raphael;Marie, Benjamin;Sumita, Eiichiro
  • 通讯作者:
    Sumita, Eiichiro
Tagged Back-translation Revisited: Why Does It Really Work?
  • DOI:
    10.18653/v1/2020.acl-main.532
  • 发表时间:
    2020-07
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Benjamin Marie;Raphaël Rubino;Atsushi Fujita
  • 通讯作者:
    Benjamin Marie;Raphaël Rubino;Atsushi Fujita
Synthesizing Parallel Data of User-Generated Texts with Zero-Shot Neural Machine Translation
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

MARIE BENJAMIN其他文献

MARIE BENJAMIN的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

相似国自然基金

CEACAM5调控Galectin-9介导的CD4+T细胞极化在COVID-19肠屏障损伤的作用机制研究
  • 批准号:
    82370569
  • 批准年份:
    2023
  • 资助金额:
    49 万元
  • 项目类别:
    面上项目
COVID-19疫情对我国儿童生长发育影响的异质性研究
  • 批准号:
    42371429
  • 批准年份:
    2023
  • 资助金额:
    52.00 万元
  • 项目类别:
    面上项目
传染病模型的稳态切换过程研究及其在治疗COVID-19中的应用
  • 批准号:
    LQ23A010016
  • 批准年份:
    2023
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
COVID-19中线粒体囊泡抑制CD8+T细胞记忆分化的机制研究
  • 批准号:
    82300018
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
COVID-19疫情爆发后武汉地区儿童副流感病毒3型的流行趋势和进化规律研究
  • 批准号:
    n/a
  • 批准年份:
    2023
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
基于 GDF15-IL6 信号轴探究扶正解毒方逆转血管内皮衰老治疗COVID-19的作用与机制
  • 批准号:
    82374392
  • 批准年份:
    2023
  • 资助金额:
    48 万元
  • 项目类别:
    面上项目
多维不平稳和长记忆性的复杂整值时间序列的建模及其在Covid-19研究中的应用
  • 批准号:
    12301358
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
COVID-19疫苗同源、异源加强剂次细胞免疫与体液免疫效应的前瞻性队列研究
  • 批准号:
    n/a
  • 批准年份:
    2023
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
基于人源细胞3D培养和精密肺切片技术探讨慢阻肺患者COVID-19易感机制研究
  • 批准号:
    LY23H190003
  • 批准年份:
    2023
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目

相似海外基金

COVID-19後遺症のリスク低減を目指したAIによるデータ駆動型予測システムの構築
使用 AI 构建数据驱动的预测系统,以降低 COVID-19 后遗症的风险
  • 批准号:
    24K13321
  • 财政年份:
    2024
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
COVID-19パンデミックが自殺率の推移に及ぼした影響の解明
阐明 COVID-19 大流行对自杀率趋势的影响
  • 批准号:
    24K13500
  • 财政年份:
    2024
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
COVID-19に学ぶ高齢者居住施設の建築計画 体験語りの環境把握と多分野協働の試み
老年生活设施的建筑规划从 COVID-19 中学习:通过经验故事了解环境并尝试多学科合作
  • 批准号:
    24K07849
  • 财政年份:
    2024
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
COVID-19とデジタルネイティブ世代-多言語による語りの収集と分析
COVID-19 和数字原生代 - 多语言叙述的收集和分析
  • 批准号:
    23K21932
  • 财政年份:
    2024
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
COVID-19関連失業者の心理的ストレスと包括的支援ー環境と個人へのアプローチ
对与 COVID-19 相关的失业工人的心理压力和综合支持:针对环境和个人的方法
  • 批准号:
    23K20767
  • 财政年份:
    2024
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
COVID-19後遺症と中枢神経内炎症の関連性: PETイメージングによる探索的研究
COVID-19 后遗症与中枢神经系统炎症之间的关系:使用 PET 成像的探索性研究
  • 批准号:
    24K02387
  • 财政年份:
    2024
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
森林浴の癒やし効果を活用した観光資源開発支援:COVID-19後に楽しく観光するために
利用森林浴的治愈效果支持旅游资源开发:为了在COVID-19之后享受愉快的观光
  • 批准号:
    23K28338
  • 财政年份:
    2024
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
COVID-19, health and labour market marginalisation
COVID-19、健康和劳动力市场边缘化
  • 批准号:
    DP230102184
  • 财政年份:
    2024
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Discovery Projects
Digital Disability Inclusion: design lessons from COVID-19
数字残障包容性:COVID-19 的设计经验教训
  • 批准号:
    IM240100147
  • 财政年份:
    2024
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Mid-Career Industry Fellowships
Post-COVID-19 Multicultural Community Building in Japan: Enhancing Risk Communication and Resilience among Foreign Residents
COVID-19 后日本的多元文化社区建设:加强外国居民的风险沟通和抵御能力
  • 批准号:
    24K15447
  • 财政年份:
    2024
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了