RI-Small: Exploiting Comparable Corpora for Machine Translation (CC4MT)

RI-Small:利用可比语料库进行机器翻译 (CC4MT)

基本信息

  • 批准号:
    0916866
  • 负责人:
  • 金额:
    $ 10万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2009
  • 资助国家:
    美国
  • 起止时间:
    2009-09-15 至 2012-08-31
  • 项目状态:
    已结题

项目摘要

Parallel corpora, i.e. texts that are translations of each other, are an important resource for many natural language processing tasks, and especially for building data-driven machine translation systems. Unfortunately, for the majority of languages, parallel corpora are virtually non-existent. To be able to develop machine translation systems for those languages, we need to be able to learn from non-parallel corpora. Comparable corpora ? i.e. documents covering at least partially the same content ? are available in far larger quantities and can be easily collected on the Web. Examples include news published in many languages by Voice of America or BBC, and the multi-lingual Wikipedia.To make best use of comparable corpora it is not sufficient to extract sentence pairs, which are sufficiently parallel, thereby building a parallel corpus and then using proven training procedures. Rather, new techniques are required to find sub-sentential translation equivalences in non-parallel sentences. To extract phrase pairs from comparable corpora requires a cascaded approach:- find comparable documents using, for example, cross-lingual information retrieval techniques;- detect promising sentence pairs, i.e. those, which may contain translational equivalences; - apply robust phrase alignment techniques to detect phrase translation pairs within non-parallel sentence pairs;The main focus of the project lies on this third step: developing novel alignment algorithms, which do not rely on aligning all words within the sentences, as traditional word alignment algorithms do, but can separate parallel from non-parallel regions.The long term benefit of this work will be that machine translation technology can be applied to those languages, for which so far no translation systems are available, due to the lack of the language resources required by current technology. This will enable communication across language barriers, esp. in critical situations like medical assistance or disaster relieve.
平行语料库,即相互翻译的文本,是许多自然语言处理任务的重要资源,特别是对于构建数据驱动的机器翻译系统。 不幸的是,对于大多数语言来说,平行语料库几乎不存在。 为了能够为这些语言开发机器翻译系统,我们需要能够从非平行语料库中学习。 可比语料库?即至少部分涵盖相同内容的文件?数量要多得多,可以很容易地在网上收集。 例子包括美国之音或英国广播公司以多种语言发布的新闻,以及多语言的维基百科。为了最好地利用可比语料库,提取足够平行的句子对是不够的,从而建立一个平行语料库,然后使用经过验证的训练过程。 相反,需要新的技术来找到非平行句子中的子句子翻译对等项。 从可比语料库中提取短语对需要一种级联方法:-使用例如跨语言信息检索技术找到可比文档;-检测有希望的句子对,即可能包含翻译等价物的句子对; -应用鲁棒的短语对齐技术来检测非平行句子对中的短语翻译对;该项目的主要重点在于第三步:开发新的对齐算法,它不像传统的单词对齐算法那样依赖于对齐句子中的所有单词,而是可以将平行区域与非平行区域分开。这项工作的长期好处是机器翻译技术可以应用于这些语言,由于缺乏当前技术所需的语言资源,迄今为止还没有翻译系统。 这将使沟通跨越语言障碍,特别是在紧急情况下,如医疗援助或救灾。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Stephan Vogel其他文献

QCRI’s Machine Translation Systems for IWSLT’16
QCRI 的 IWSLT’16 机器翻译系统
  • DOI:
  • 发表时间:
    2016
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Nadir Durrani;Fahim Dalvi;Hassan Sajjad;Stephan Vogel
  • 通讯作者:
    Stephan Vogel
Dynamic De/Centralization in Germany, 1949–2010
德国的动态去中心化/集权化,1949-2010
  • DOI:
  • 发表时间:
    2019
  • 期刊:
  • 影响因子:
    0
  • 作者:
    André Kaiser;Stephan Vogel
  • 通讯作者:
    Stephan Vogel
Labels for Disorder Mentions in Online Health Forums
在线健康论坛中提及疾病的标签
  • DOI:
  • 发表时间:
    2013
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Ryen W. White;Bill Hersh;Patricia Driscoll;S. Gorman;Noémie Elhadad;L. Fernández;André Mourão;Flávio Martins;João Magalhães;Haggai Roitman;Sivan Yogev;Yevgenia Tsimerman;Y. Peres;Avare Stewart;Nattiya Kanhabua;Sara Romano;Ernesto Diaz;W. Siberski;W. Nejdl;Ahmed Ali;Walid Magdy;Stephan Vogel;Lorraine Goeuriot;Liadh Kelly;G. Jones;G. Jones;A. Hanbury;Henning Müller;Bernhard Haslhofer;Balaji Polepalli;Ramesh;Hongfeng Yu;Martin Wiesner;M. Pobiruchin;D. Pfeifer;Danny T. Y. Wu;Lei Yang;Qiaozhu Mei;D. Hanauer;Kai Zheng;Stephen Wu;Dongqing Zhu;W. Hersh;Hongfang Liu;Andrew Yates;Nazli Goharian;O. Frieder
  • 通讯作者:
    O. Frieder
Upward lightning attachment analysis on wind turbines and correlated current parameters
风力发电机上行雷击附着分析及相关电流参数
  • DOI:
  • 发表时间:
    2017
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Stephan Vogel;齋藤 幹久;石井 勝
  • 通讯作者:
    石井 勝
Correlations of current parameters with flash density from winter thunderstorms in Japan
日本冬季雷暴的电流参数与闪光密度的相关性
  • DOI:
  • 发表时间:
    2017
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Stephan Vogel;齋藤 幹久;石井 勝
  • 通讯作者:
    石井 勝

Stephan Vogel的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Stephan Vogel', 18)}}的其他基金

Workshop Proposal: Student Research Workshop at AMTA-2010
研讨会提案:AMTA-2010 学生研究研讨会
  • 批准号:
    1048559
  • 财政年份:
    2010
  • 资助金额:
    $ 10万
  • 项目类别:
    Standard Grant
INCA: An Integrated Cluster Computing Architecture for Machine Translation
INCA:用于机器翻译的集成集群计算架构
  • 批准号:
    0844507
  • 财政年份:
    2009
  • 资助金额:
    $ 10万
  • 项目类别:
    Standard Grant

相似国自然基金

昼夜节律性small RNA在血斑形成时间推断中的法医学应用研究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
tRNA-derived small RNA上调YBX1/CCL5通路参与硼替佐米诱导慢性疼痛的机制研究
  • 批准号:
    n/a
  • 批准年份:
    2022
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
Small RNA调控I-F型CRISPR-Cas适应性免疫性的应答及分子机制
  • 批准号:
    32000033
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
Small RNAs调控解淀粉芽胞杆菌FZB42生防功能的机制研究
  • 批准号:
    31972324
  • 批准年份:
    2019
  • 资助金额:
    58.0 万元
  • 项目类别:
    面上项目
变异链球菌small RNAs连接LuxS密度感应与生物膜形成的机制研究
  • 批准号:
    81900988
  • 批准年份:
    2019
  • 资助金额:
    21.0 万元
  • 项目类别:
    青年科学基金项目
肠道细菌关键small RNAs在克罗恩病发生发展中的功能和作用机制
  • 批准号:
    31870821
  • 批准年份:
    2018
  • 资助金额:
    56.0 万元
  • 项目类别:
    面上项目
基于small RNA 测序技术解析鸽分泌鸽乳的分子机制
  • 批准号:
    31802058
  • 批准年份:
    2018
  • 资助金额:
    26.0 万元
  • 项目类别:
    青年科学基金项目
Small RNA介导的DNA甲基化调控的水稻草矮病毒致病机制
  • 批准号:
    31772128
  • 批准年份:
    2017
  • 资助金额:
    60.0 万元
  • 项目类别:
    面上项目
基于small RNA-seq的针灸治疗桥本甲状腺炎的免疫调控机制研究
  • 批准号:
    81704176
  • 批准年份:
    2017
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
水稻OsSGS3与OsHEN1调控small RNAs合成及其对抗病性的调节
  • 批准号:
    91640114
  • 批准年份:
    2016
  • 资助金额:
    85.0 万元
  • 项目类别:
    重大研究计划

相似海外基金

RI: Small: Learning Resilient Autonomous Flight Behaviors by Exploiting Collision-tolerance
RI:小:通过利用碰撞容忍度来学习弹性自主飞行行为
  • 批准号:
    2008904
  • 财政年份:
    2020
  • 资助金额:
    $ 10万
  • 项目类别:
    Standard Grant
RI: Small: Exploiting Symmetries of Decision-Theoretic Planning for Autonomous Vehicles
RI:小:利用自动驾驶车辆决策理论规划的对称性
  • 批准号:
    2006886
  • 财政年份:
    2020
  • 资助金额:
    $ 10万
  • 项目类别:
    Standard Grant
RI: Small: Exploiting Global Structure in Robot Decision Problems
RI:小:在机器人决策问题中利用全局结构
  • 批准号:
    2002492
  • 财政年份:
    2019
  • 资助金额:
    $ 10万
  • 项目类别:
    Standard Grant
RI: Small: Exploiting Global Structure in Robot Decision Problems
RI:小:在机器人决策问题中利用全局结构
  • 批准号:
    1816540
  • 财政年份:
    2018
  • 资助金额:
    $ 10万
  • 项目类别:
    Standard Grant
RI: Small: Collaborative Research: Hidden Parameter Markov Decision Processes: Exploiting Structure in Families of Tasks
RI:小型:协作研究:隐藏参数马尔可夫决策过程:利用任务族中的结构
  • 批准号:
    1718306
  • 财政年份:
    2017
  • 资助金额:
    $ 10万
  • 项目类别:
    Standard Grant
RI: Small: Collaborative Research: Hidden Parameter Markov Decision Processes: Exploiting Structure in Families of Tasks
RI:小型:协作研究:隐藏参数马尔可夫决策过程:利用任务族中的结构
  • 批准号:
    1717569
  • 财政年份:
    2017
  • 资助金额:
    $ 10万
  • 项目类别:
    Standard Grant
RI: Small: Collaborative Research: Micro-Assembly Exploiting SofT RObotics (MAESTRO)
RI:小型:协作研究:微装配开发软机器人 (MAESTRO)
  • 批准号:
    1619278
  • 财政年份:
    2016
  • 资助金额:
    $ 10万
  • 项目类别:
    Continuing Grant
RI: Small: Collaborative Research: Micro-Assembly Exploiting SofT RObotics (MAESTRO)
RI:小型:协作研究:微装配开发软机器人 (MAESTRO)
  • 批准号:
    1617949
  • 财政年份:
    2016
  • 资助金额:
    $ 10万
  • 项目类别:
    Continuing Grant
RI: Small: Collaborative Research: Micro-Assembly Exploiting SofT RObotics (MAESTRO)
RI:小型:协作研究:微装配开发软机器人 (MAESTRO)
  • 批准号:
    1712088
  • 财政年份:
    2016
  • 资助金额:
    $ 10万
  • 项目类别:
    Continuing Grant
RI: Small: Exploiting Correlated Sparsity Pattern Change in Dynamic Vision Problems
RI:小:利用动态视觉问题中的相关稀疏模式变化
  • 批准号:
    1117509
  • 财政年份:
    2011
  • 资助金额:
    $ 10万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了