Active Selection of Data for Machine Translation
主动选择机器翻译数据
基本信息
- 批准号:0713292
- 负责人:
- 金额:--
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2007
- 资助国家:美国
- 起止时间:2007-09-15 至 2009-08-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Current methods for machine translation (MT) rely on large amounts of text data. However, large data is not available for many languages or for specialized vocabularies even in major languages. This project elicits bilingual data from a fairly naive human bilingual informant.Bilingual speakers are available for a language even when large data and trained linguists are not. A Corpus Navigator uses knowledge from language typology to choose the pieces of data that are most valuable for automatic learning of MT rules. The Corpus Navigator employs active learning in the sense that its state is updated by eliciting data from a human translator.Two hypotheses are being tested: an MT system can get by with less data if it is the right data, and that the right data can be acquired through an active learning process guided by linguistic knowledge.Current government-run MT evaluations provide a testbed for these hypotheses. The outputs of MT systems trained on different data sets are compared in order to determine whether the hypotheses are correct. An initial prototype Corpus Navigator is being produced as a proof-of-concept. This project will make it easier to build MT systems in situations where large text resources are not available. Languages that will be tested may include Inupiaq, Bengali, Thai, Urdu, Uzbek, and Tigrinia.The output of Corpus Navigation is a parallel, word-aligned corpus annotated with a semantic feature structure. This data will be available to other researchers.
目前的机器翻译(MT)方法依赖于大量的文本数据。 然而,大数据对于许多语言或甚至对于主要语言的专门词汇表都不可用。 这个项目从一个相当天真的人类双语线人中提取双语数据。即使在大数据和训练有素的语言学家不存在的情况下,双语者也可以使用一种语言。 语料库导航器使用来自语言类型学的知识来选择对机器翻译规则的自动学习最有价值的数据。 语料库导航器采用主动学习的方式,通过从人工翻译中获取数据来更新其状态。两个假设正在被检验:如果数据是正确的,机器翻译系统可以使用较少的数据,并且可以通过语言知识指导的主动学习过程来获取正确的数据。目前政府运行的机器翻译评估为这些假设提供了一个测试平台。 比较在不同数据集上训练的MT系统的输出,以确定假设是否正确。 Corpus Navigator的初始原型正在制作中,作为概念验证。 该项目将使在没有大文本资源的情况下构建机器翻译系统变得更加容易。 将被测试的语言可能包括Inupiaq,孟加拉语,泰语,乌尔都语,乌兹别克语和Tigrinia。语料库导航的输出是一个并行的,单词对齐的语料库,注释了语义特征结构。 这些数据将提供给其他研究人员。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Lorraine Levin其他文献
Lorraine Levin的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Lorraine Levin', 18)}}的其他基金
Conference: Training the US Computational Linguistics Team
会议:培训美国计算语言学团队
- 批准号:
2329963 - 财政年份:2023
- 资助金额:
-- - 项目类别:
Standard Grant
Collaborative Research: RI: Medium: From Acoustic Signal to Morphosyntactic Analysis in One End-to-End Neural System
合作研究:RI:媒介:从声学信号到端到端神经系统中的形态句法分析
- 批准号:
2211951 - 财政年份:2022
- 资助金额:
-- - 项目类别:
Standard Grant
Conference: International Linguistics Olympiad (2022)
会议:国际语言学奥林匹克(2022)
- 批准号:
2141334 - 财政年份:2022
- 资助金额:
-- - 项目类别:
Standard Grant
North American Computational Linguistics Olympiad (NACLO) 2020
2020 年北美计算语言学奥林匹克竞赛 (NACLO)
- 批准号:
1946109 - 财政年份:2020
- 资助金额:
-- - 项目类别:
Standard Grant
Workshop: International Linguistics Olympiad (ILO) July 2019; Yongin, South Korea
研讨会:国际语言学奥林匹克(ILO)2019 年 7 月;
- 批准号:
1851142 - 财政年份:2019
- 资助金额:
-- - 项目类别:
Standard Grant
International Linguistics Olympiad (ILO) 2018: Prague, CZ, July 26 - August 1, 2018
2018 年国际语言学奥林匹克 (ILO):捷克布拉格,2018 年 7 月 26 日至 8 月 1 日
- 批准号:
1757042 - 财政年份:2018
- 资助金额:
-- - 项目类别:
Standard Grant
Workshop: International Computational Linguistics Olympiad 2017
研讨会:2017 年国际计算语言学奥林匹克竞赛
- 批准号:
1654253 - 财政年份:2017
- 资助金额:
-- - 项目类别:
Standard Grant
The International Linguistics Olympiad: Preparing High School Students for the Study of Human Language and Computation
国际语言学奥林匹克:为高中生学习人类语言和计算做好准备
- 批准号:
1137828 - 财政年份:2011
- 资助金额:
-- - 项目类别:
Standard Grant
SGER: Collaborative Research: New Problem Genres for the North American Computational Linguistics Olympiad
SGER:协作研究:北美计算语言学奥林匹克竞赛的新问题类型
- 批准号:
0838848 - 财政年份:2008
- 资助金额:
-- - 项目类别:
Standard Grant
Planning Workshop for a Computational Linguistics Olympiad
计算语言学奥林匹克竞赛规划研讨会
- 批准号:
0633871 - 财政年份:2006
- 资助金额:
-- - 项目类别:
Standard Grant
相似国自然基金
Intelligent Patent Analysis for Optimized Technology Stack Selection:Blockchain BusinessRegistry Case Demonstration
- 批准号:
- 批准年份:2024
- 资助金额:万元
- 项目类别:外国学者研究基金项目
连锁群选育法(Linkage Group Selection)在柔嫩艾美耳球虫表型相关基因研究中应用
- 批准号:30700601
- 批准年份:2007
- 资助金额:17.0 万元
- 项目类别:青年科学基金项目
相似海外基金
Data-driven selection of a convex loss function via shape-constrained estimation
通过形状约束估计来数据驱动选择凸损失函数
- 批准号:
2311299 - 财政年份:2023
- 资助金额:
-- - 项目类别:
Standard Grant
Establishing Multimodal Brain Biomarkers Using Data-driven Analyticsfor Treatment Selection in Depression
使用数据驱动分析建立多模式脑生物标志物以选择抑郁症的治疗方法
- 批准号:
10660219 - 财政年份:2023
- 资助金额:
-- - 项目类别:
Collaborative Research: Design-Based Optimal Subdata Selection Using Mixture-of-Experts Models to Account for Big Data Heterogeneity
协作研究:基于设计的最佳子数据选择,使用专家混合模型来解释大数据异构性
- 批准号:
2210576 - 财政年份:2022
- 资助金额:
-- - 项目类别:
Standard Grant
Modelling and Feature Selection with Applications to Big Data Problems
建模和特征选择及其在大数据问题中的应用
- 批准号:
RGPIN-2019-05963 - 财政年份:2022
- 资助金额:
-- - 项目类别:
Discovery Grants Program - Individual
Dynamic ensemble selection for data streams and multi-view learning
数据流和多视图学习的动态集成选择
- 批准号:
RGPIN-2021-04130 - 财政年份:2022
- 资助金额:
-- - 项目类别:
Discovery Grants Program - Individual
Regularization and approximation: statistical inference, model selection, and large data
正则化和近似:统计推断、模型选择和大数据
- 批准号:
RGPIN-2021-02618 - 财政年份:2022
- 资助金额:
-- - 项目类别:
Discovery Grants Program - Individual
Bayesian Methods, Computation, Model Selection and Goodness of Fit with Complex Data
复杂数据的贝叶斯方法、计算、模型选择和拟合优度
- 批准号:
RGPIN-2018-05008 - 财政年份:2022
- 资助金额:
-- - 项目类别:
Discovery Grants Program - Individual
A novel method for inferring the strength of selection along clines using whole genome sequence data
一种使用全基因组序列数据推断沿克隆选择强度的新方法
- 批准号:
567780-2022 - 财政年份:2022
- 资助金额:
-- - 项目类别:
Postdoctoral Fellowships
Acute Ischemic Tissue Evolution and Implications for Imaging Selection of Patients for Therapy and Clinical Trials using Sex-Disaggregated Data
急性缺血组织的演变以及对使用按性别分类数据进行治疗和临床试验的患者影像学选择的影响
- 批准号:
10818647 - 财政年份:2022
- 资助金额:
-- - 项目类别:
Selection and Integration of -Omics Data for Biomarkers Discovery
用于生物标志物发现的组学数据的选择和整合
- 批准号:
RGPIN-2019-05496 - 财政年份:2022
- 资助金额:
-- - 项目类别:
Discovery Grants Program - Individual














{{item.name}}会员




