RI: Small: Language Induction meets Language Documentation: Leveraging bilingual aligned audio for learning and preserving languages
RI:小:语言归纳遇见语言文档:利用双语对齐音频来学习和保存语言
基本信息
- 批准号:1464553
- 负责人:
- 金额:$ 47万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Continuing Grant
- 财政年份:2014
- 资助国家:美国
- 起止时间:2014-09-01 至 2018-09-30
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Thousands of the world's languages are in danger of dying out before they have been systematically documented. Many other languages have millions of speakers, yet they exist only in spoken form, and minimal documentary records are available. As a consequence, important sources of knowledge about human language and culture are inaccessible, and at risk of being lost forever. Moreover, it is difficult to develop technologies for processing these languages, leaving their speech communities on the far side of a widening digital divide. The first step to solving these problems is language documentation, and so the goal of this project is to develop computational methods based on automatic speech recognition and machine translation for documenting endangered and unwritten languages on an unprecedented scale.To be successful, any approach must guarantee both the sufficiency and interpretability of the documentation it produces. This project ensures sufficiency by using a combination of community outreach, crowdsourcing techniques, and mobile/web technologies to collect hundreds of hours (millions of words) of speech. The interpretability is enabled by augmenting original speech recordings with careful verbatim repetitions along with translations into a well-resourced language. Finally, computational models are developed to automate transcription of recordings and alignment with translations, resulting in bilingual aligned text. The result is a kind of digital Rosetta Stone: a large-scale key for interpreting the world's languages even if they are not written, or no longer even spoken.
世界上成千上万的语言在被系统地记录下来之前就有灭绝的危险。许多其他语言有数以百万计的人,但他们只存在于口头形式,和最低限度的文件记录。因此,有关人类语言和文化的重要知识来源无法获取,并有可能永远消失。此外,很难开发处理这些语言的技术,使他们的语言社区处于日益扩大的数字鸿沟的遥远一边。解决这些问题的第一步是语言文档,因此本项目的目标是开发基于自动语音识别和机器翻译的计算方法,以前所未有的规模记录濒危和非书面语言。要取得成功,任何方法都必须保证其产生的文档的充分性和可解释性。该项目通过使用社区外展、众包技术和移动的/网络技术相结合的方式来收集数百小时(数百万字)的语音,以确保充分性。可解释性是通过增加原始的讲话录音与仔细的逐字重复沿着翻译成一个资源丰富的语言。最后,开发计算模型来自动化录音的转录和与翻译的对齐,从而产生双语对齐文本。其结果是一种数字罗塞塔石碑:一个大规模的关键解释世界上的语言,即使他们不是书面的,甚至不再说。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
David Chiang其他文献
Learning Context-free Languages with Nondeterministic Stack RNNs
使用非确定性堆栈 RNN 学习上下文无关语言
- DOI:
- 发表时间:
2020 - 期刊:
- 影响因子:0
- 作者:
Brian DuSell;David Chiang - 通讯作者:
David Chiang
Efficiency through Auto-Sizing: Notre Dame NLP’s Submission to the WNGT 2019 Efficiency Task
通过自动调整大小提高效率:Notre Dame NLP 提交给 WNGT 2019 效率任务
- DOI:
10.18653/v1/d19-5634 - 发表时间:
2019 - 期刊:
- 影响因子:0
- 作者:
Kenton Murray;Brian DuSell;David Chiang - 通讯作者:
David Chiang
Mildly Context-Sensitive Grammars for Estimating Maximum Entropy Parsing Models
用于估计最大熵解析模型的轻度上下文相关语法
- DOI:
- 发表时间:
2008 - 期刊:
- 影响因子:0
- 作者:
David Chiang - 通讯作者:
David Chiang
We're Calling an Intervention: Taking a Closer Look at Language Model Adaptation to Different Types of Linguistic Variation
我们呼吁干预:仔细研究语言模型对不同类型语言变异的适应
- DOI:
10.48550/arxiv.2404.07304 - 发表时间:
2024 - 期刊:
- 影响因子:0
- 作者:
Aarohi Srivastava;David Chiang - 通讯作者:
David Chiang
Syntax-Based Attention Masking for Neural Machine Translation
用于神经机器翻译的基于语法的注意力掩蔽
- DOI:
10.18653/v1/2021.naacl-srw.7 - 发表时间:
2021 - 期刊:
- 影响因子:0
- 作者:
Colin McDonald;David Chiang - 通讯作者:
David Chiang
David Chiang的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('David Chiang', 18)}}的其他基金
RI: Small: Learning to Retrieve Structured Information for Summarization and Translation of Unstructured Text
RI:小:学习检索结构化信息以摘要和翻译非结构化文本
- 批准号:
2137396 - 财政年份:2022
- 资助金额:
$ 47万 - 项目类别:
Standard Grant
Collaborative Research: RI: Small: NL(V)P:Natural Language (Variety) Processing
合作研究:RI:小型:NL(V)P:自然语言(品种)处理
- 批准号:
2125948 - 财政年份:2021
- 资助金额:
$ 47万 - 项目类别:
Standard Grant
Collaborative Research: Language Documentation with an Artificial Intelligence (AI) Helper
协作研究:使用人工智能 (AI) 助手进行语言文档记录
- 批准号:
2109709 - 财政年份:2021
- 资助金额:
$ 47万 - 项目类别:
Standard Grant
Collaborative Research: FMitF: Track I: Differentiable Probabilistic Programming with Recursive Structured Models
合作研究:FMitF:第一轨:使用递归结构化模型的可微概率规划
- 批准号:
2019291 - 财政年份:2020
- 资助金额:
$ 47万 - 项目类别:
Standard Grant
RI: Small: Language Induction meets Language Documentation: Leveraging bilingual aligned audio for learning and preserving languages
RI:小:语言归纳遇见语言文档:利用双语对齐音频来学习和保存语言
- 批准号:
1423406 - 财政年份:2014
- 资助金额:
$ 47万 - 项目类别:
Continuing Grant
EAGER: Machine Translation for Language Preservation
EAGER:用于语言保护的机器翻译
- 批准号:
1144167 - 财政年份:2011
- 资助金额:
$ 47万 - 项目类别:
Standard Grant
EAGER: Phylo: Phylogenetic Reconstruction of Textual Histories
EAGER:Phylo:文本历史的系统发育重建
- 批准号:
1011778 - 财政年份:2010
- 资助金额:
$ 47万 - 项目类别:
Standard Grant
相似国自然基金
昼夜节律性small RNA在血斑形成时间推断中的法医学应用研究
- 批准号:
- 批准年份:2024
- 资助金额:0.0 万元
- 项目类别:省市级项目
tRNA-derived small RNA上调YBX1/CCL5通路参与硼替佐米诱导慢性疼痛的机制研究
- 批准号:n/a
- 批准年份:2022
- 资助金额:10.0 万元
- 项目类别:省市级项目
Small RNA调控I-F型CRISPR-Cas适应性免疫性的应答及分子机制
- 批准号:32000033
- 批准年份:2020
- 资助金额:24.0 万元
- 项目类别:青年科学基金项目
Small RNAs调控解淀粉芽胞杆菌FZB42生防功能的机制研究
- 批准号:31972324
- 批准年份:2019
- 资助金额:58.0 万元
- 项目类别:面上项目
变异链球菌small RNAs连接LuxS密度感应与生物膜形成的机制研究
- 批准号:81900988
- 批准年份:2019
- 资助金额:21.0 万元
- 项目类别:青年科学基金项目
肠道细菌关键small RNAs在克罗恩病发生发展中的功能和作用机制
- 批准号:31870821
- 批准年份:2018
- 资助金额:56.0 万元
- 项目类别:面上项目
基于small RNA 测序技术解析鸽分泌鸽乳的分子机制
- 批准号:31802058
- 批准年份:2018
- 资助金额:26.0 万元
- 项目类别:青年科学基金项目
Small RNA介导的DNA甲基化调控的水稻草矮病毒致病机制
- 批准号:31772128
- 批准年份:2017
- 资助金额:60.0 万元
- 项目类别:面上项目
基于small RNA-seq的针灸治疗桥本甲状腺炎的免疫调控机制研究
- 批准号:81704176
- 批准年份:2017
- 资助金额:20.0 万元
- 项目类别:青年科学基金项目
水稻OsSGS3与OsHEN1调控small RNAs合成及其对抗病性的调节
- 批准号:91640114
- 批准年份:2016
- 资助金额:85.0 万元
- 项目类别:重大研究计划
相似海外基金
RI: Small: Extracting Knowledge from Language Models for Decision Making
RI:小型:从语言模型中提取知识以进行决策
- 批准号:
2246811 - 财政年份:2023
- 资助金额:
$ 47万 - 项目类别:
Standard Grant
CompCog: RI: Small: Human-like semantic grammar induction through knowledge distillation from pre-trained language models
CompCog:RI:Small:通过预训练语言模型的知识蒸馏进行类人语义语法归纳
- 批准号:
2313140 - 财政年份:2023
- 资助金额:
$ 47万 - 项目类别:
Standard Grant
RI: Small: SM-An Active Approach for Data Engineering to Improve Vision-Language Tasks
RI:小型:SM - 一种改进视觉语言任务的数据工程主动方法
- 批准号:
2132724 - 财政年份:2022
- 资助金额:
$ 47万 - 项目类别:
Continuing Grant
NSF-BSF: Collaborative Research: RI: Small: Multilingual Language Generation via Understanding of Code Switching
NSF-BSF:协作研究:RI:小型:通过理解代码切换生成多语言
- 批准号:
2203097 - 财政年份:2021
- 资助金额:
$ 47万 - 项目类别:
Standard Grant
Collaborative Research: RI: Small: NL(V)P: Natural Language (Variety) Processing
合作研究:RI:小型:NL(V)P:自然语言(品种)处理
- 批准号:
2125201 - 财政年份:2021
- 资助金额:
$ 47万 - 项目类别:
Standard Grant
Collaborative Research: RI: Small: NL(V)P: Natural Language (Variety) Processing
合作研究:RI:小型:NL(V)P:自然语言(品种)处理
- 批准号:
2125466 - 财政年份:2021
- 资助金额:
$ 47万 - 项目类别:
Standard Grant
Collaborative Research: RI: Small: NL(V)P:Natural Language (Variety) Processing
合作研究:RI:小型:NL(V)P:自然语言(品种)处理
- 批准号:
2125948 - 财政年份:2021
- 资助金额:
$ 47万 - 项目类别:
Standard Grant
RI: Small: Modeling Co-Decisions: A Computational Framework Using Language and Metadata
RI:小型:共同决策建模:使用语言和元数据的计算框架
- 批准号:
2008761 - 财政年份:2020
- 资助金额:
$ 47万 - 项目类别:
Standard Grant
NSF-BSF: Collaborative Research: RI: Small: Multilingual Language Generation via Understanding of Code Switching
NSF-BSF:协作研究:RI:小型:通过理解代码切换生成多语言
- 批准号:
2007656 - 财政年份:2020
- 资助金额:
$ 47万 - 项目类别:
Standard Grant
RI: Small: Extracting and Representing Commonsense Knowledge Using Language Models
RI:小:使用语言模型提取和表示常识知识
- 批准号:
2006851 - 财政年份:2020
- 资助金额:
$ 47万 - 项目类别:
Standard Grant