Active Selection of Data for Machine Translation
主动选择机器翻译数据
基本信息
- 批准号:0713292
- 负责人:
- 金额:--
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2007
- 资助国家:美国
- 起止时间:2007-09-15 至 2009-08-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Current methods for machine translation (MT) rely on large amounts of text data. However, large data is not available for many languages or for specialized vocabularies even in major languages. This project elicits bilingual data from a fairly naive human bilingual informant.Bilingual speakers are available for a language even when large data and trained linguists are not. A Corpus Navigator uses knowledge from language typology to choose the pieces of data that are most valuable for automatic learning of MT rules. The Corpus Navigator employs active learning in the sense that its state is updated by eliciting data from a human translator.Two hypotheses are being tested: an MT system can get by with less data if it is the right data, and that the right data can be acquired through an active learning process guided by linguistic knowledge.Current government-run MT evaluations provide a testbed for these hypotheses. The outputs of MT systems trained on different data sets are compared in order to determine whether the hypotheses are correct. An initial prototype Corpus Navigator is being produced as a proof-of-concept. This project will make it easier to build MT systems in situations where large text resources are not available. Languages that will be tested may include Inupiaq, Bengali, Thai, Urdu, Uzbek, and Tigrinia.The output of Corpus Navigation is a parallel, word-aligned corpus annotated with a semantic feature structure. This data will be available to other researchers.
当前的机器翻译方法依赖于大量的文本数据。然而,对于许多语言,甚至对于主要语言中的专门词汇表,大数据都是不可用的。这个项目从一个相当幼稚的人类双语信息者那里得到双语数据。即使没有大数据和训练有素的语言学家,也可以使用双语者来学习一种语言。语料库导航器使用来自语言类型学的知识来选择对自动学习机器翻译规则最有价值的数据块。语料库导航器采用主动学习,它的状态是通过从人工翻译中提取数据来更新的。两个假设正在被测试:如果是正确的数据,一个机器翻译系统可以用更少的数据来完成,正确的数据可以通过语言知识指导下的主动学习过程获得。目前政府运行的MT评估为这些假设提供了一个测试平台。在不同的数据集上训练的机器翻译系统的输出进行比较,以确定假设是否正确。最初的原型语料库导航器正在生产,作为概念验证。这个项目将使在没有大量文本资源的情况下更容易构建MT系统。测试的语言可能包括因纽皮克语、孟加拉语、泰语、乌尔都语、乌兹别克语和提格里尼亚语。语料库导航的输出是一个用语义特征结构注释的平行的、词对齐的语料库。这些数据将提供给其他研究人员。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Lorraine Levin其他文献
Lorraine Levin的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Lorraine Levin', 18)}}的其他基金
Conference: Training the US Computational Linguistics Team
会议:培训美国计算语言学团队
- 批准号:
2329963 - 财政年份:2023
- 资助金额:
-- - 项目类别:
Standard Grant
Collaborative Research: RI: Medium: From Acoustic Signal to Morphosyntactic Analysis in One End-to-End Neural System
合作研究:RI:媒介:从声学信号到端到端神经系统中的形态句法分析
- 批准号:
2211951 - 财政年份:2022
- 资助金额:
-- - 项目类别:
Standard Grant
Conference: International Linguistics Olympiad (2022)
会议:国际语言学奥林匹克(2022)
- 批准号:
2141334 - 财政年份:2022
- 资助金额:
-- - 项目类别:
Standard Grant
North American Computational Linguistics Olympiad (NACLO) 2020
2020 年北美计算语言学奥林匹克竞赛 (NACLO)
- 批准号:
1946109 - 财政年份:2020
- 资助金额:
-- - 项目类别:
Standard Grant
Workshop: International Linguistics Olympiad (ILO) July 2019; Yongin, South Korea
研讨会:国际语言学奥林匹克(ILO)2019 年 7 月;
- 批准号:
1851142 - 财政年份:2019
- 资助金额:
-- - 项目类别:
Standard Grant
International Linguistics Olympiad (ILO) 2018: Prague, CZ, July 26 - August 1, 2018
2018 年国际语言学奥林匹克 (ILO):捷克布拉格,2018 年 7 月 26 日至 8 月 1 日
- 批准号:
1757042 - 财政年份:2018
- 资助金额:
-- - 项目类别:
Standard Grant
Workshop: International Computational Linguistics Olympiad 2017
研讨会:2017 年国际计算语言学奥林匹克竞赛
- 批准号:
1654253 - 财政年份:2017
- 资助金额:
-- - 项目类别:
Standard Grant
The International Linguistics Olympiad: Preparing High School Students for the Study of Human Language and Computation
国际语言学奥林匹克:为高中生学习人类语言和计算做好准备
- 批准号:
1137828 - 财政年份:2011
- 资助金额:
-- - 项目类别:
Standard Grant
SGER: Collaborative Research: New Problem Genres for the North American Computational Linguistics Olympiad
SGER:协作研究:北美计算语言学奥林匹克竞赛的新问题类型
- 批准号:
0838848 - 财政年份:2008
- 资助金额:
-- - 项目类别:
Standard Grant
Planning Workshop for a Computational Linguistics Olympiad
计算语言学奥林匹克竞赛规划研讨会
- 批准号:
0633871 - 财政年份:2006
- 资助金额:
-- - 项目类别:
Standard Grant
相似国自然基金
Intelligent Patent Analysis for Optimized Technology Stack Selection:Blockchain BusinessRegistry Case Demonstration
- 批准号:
- 批准年份:2024
- 资助金额:万元
- 项目类别:外国学者研究基金项目
连锁群选育法(Linkage Group Selection)在柔嫩艾美耳球虫表型相关基因研究中应用
- 批准号:30700601
- 批准年份:2007
- 资助金额:17.0 万元
- 项目类别:青年科学基金项目
相似海外基金
Data-driven selection of a convex loss function via shape-constrained estimation
通过形状约束估计来数据驱动选择凸损失函数
- 批准号:
2311299 - 财政年份:2023
- 资助金额:
-- - 项目类别:
Standard Grant
Establishing Multimodal Brain Biomarkers Using Data-driven Analyticsfor Treatment Selection in Depression
使用数据驱动分析建立多模式脑生物标志物以选择抑郁症的治疗方法
- 批准号:
10660219 - 财政年份:2023
- 资助金额:
-- - 项目类别:
Collaborative Research: Design-Based Optimal Subdata Selection Using Mixture-of-Experts Models to Account for Big Data Heterogeneity
协作研究:基于设计的最佳子数据选择,使用专家混合模型来解释大数据异构性
- 批准号:
2210576 - 财政年份:2022
- 资助金额:
-- - 项目类别:
Standard Grant
Dynamic ensemble selection for data streams and multi-view learning
数据流和多视图学习的动态集成选择
- 批准号:
RGPIN-2021-04130 - 财政年份:2022
- 资助金额:
-- - 项目类别:
Discovery Grants Program - Individual
Modelling and Feature Selection with Applications to Big Data Problems
建模和特征选择及其在大数据问题中的应用
- 批准号:
RGPIN-2019-05963 - 财政年份:2022
- 资助金额:
-- - 项目类别:
Discovery Grants Program - Individual
A novel method for inferring the strength of selection along clines using whole genome sequence data
一种使用全基因组序列数据推断沿克隆选择强度的新方法
- 批准号:
567780-2022 - 财政年份:2022
- 资助金额:
-- - 项目类别:
Postdoctoral Fellowships
Regularization and approximation: statistical inference, model selection, and large data
正则化和近似:统计推断、模型选择和大数据
- 批准号:
RGPIN-2021-02618 - 财政年份:2022
- 资助金额:
-- - 项目类别:
Discovery Grants Program - Individual
Bayesian Methods, Computation, Model Selection and Goodness of Fit with Complex Data
复杂数据的贝叶斯方法、计算、模型选择和拟合优度
- 批准号:
RGPIN-2018-05008 - 财政年份:2022
- 资助金额:
-- - 项目类别:
Discovery Grants Program - Individual
Acute Ischemic Tissue Evolution and Implications for Imaging Selection of Patients for Therapy and Clinical Trials using Sex-Disaggregated Data
急性缺血组织的演变以及对使用按性别分类数据进行治疗和临床试验的患者影像学选择的影响
- 批准号:
10818647 - 财政年份:2022
- 资助金额:
-- - 项目类别:
Selection and Integration of -Omics Data for Biomarkers Discovery
用于生物标志物发现的组学数据的选择和整合
- 批准号:
RGPIN-2019-05496 - 财政年份:2022
- 资助金额:
-- - 项目类别:
Discovery Grants Program - Individual














{{item.name}}会员




