RI: Small: Developing Large Scale Distributed Syntactic, Semantic and Lexical Language Models for Machine Translation and Speech Recognition
RI:小型:开发用于机器翻译和语音识别的大规模分布式句法、语义和词汇语言模型
基本信息
- 批准号:1218863
- 负责人:
- 金额:$ 46万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Continuing Grant
- 财政年份:2012
- 资助国家:美国
- 起止时间:2012-08-01 至 2016-07-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
This project aims to build large scale distributed syntactic, semantic, and lexical language models that are trained by corpora with up to Web-scale data on a supercomputer in order to substantially improve the performance of machine translation and speech recognition systems. It is conducted under the directed Markov random field paradigm to integrate both topics and syntax to form complex distributions for natural language, and uses hierarchical Pitman-Yor processes to model long-tail properties of natural language. By exploiting this particular structure, the complex statistical estimation and inference algorithms are decomposed and performed in a distributed environment. The language models are put into one-pass decoders of machine translation systems, and the lattice rescoring decoder into a speech recognition system. In addition, a principled solution to a long-standing open problem, smoothing fractional counts due to latent variables in Kneser-Ney's sense, might be found. This project fits into the NSF's strategic long term vision of a Cyber-infrastructure Framework for 21st Century Science and Engineering (CIF21). The project integrates various kinds of known language models and provides a way to overcome the limitations of existing combination methods for language models and to deploy algorithmically interesting methodologies that are scalable to data sets available on the Web. The project provides an environment for interdisciplinary education in information technology that bridges areas of language and speech processing, machine learning, and data-intensive science and engineering to benefit students at several levels.
该项目旨在建立大规模的分布式句法、语义和词汇语言模型,通过在超级计算机上使用高达Web规模的数据的语料库进行训练,以显著提高机器翻译和语音识别系统的性能。它是在有向马尔可夫随机场范式下进行的,将主题和句法结合起来形成自然语言的复杂分布,并使用分层的Pitman-Yor过程来建模自然语言的长尾属性。通过利用这种特殊的结构,复杂的统计估计和推理算法被分解并在分布式环境中执行。语言模型被放入机器翻译系统的单程译码中,格子重新评分译码被放入语音识别系统中。此外,可能会找到一个长期悬而未决的问题的原则性解决方案,即由于克内塞-奈意义上的潜变量而平滑分数计数。该项目符合美国国家科学基金会21世纪科学与工程网络基础设施框架(CIF21)的长期战略愿景。该项目集成了各种已知的语言模型,并提供了一种方法来克服现有语言模型组合方法的限制,并部署算法上有趣的方法,这些方法可扩展到Web上可用的数据集。该项目为信息技术领域的跨学科教育提供了一个环境,将语言和语音处理、机器学习以及数据密集型科学和工程等领域联系起来,使学生在几个层次上受益。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Shaojun Wang其他文献
Protective Effect of Na+/Ca2+ Exchange Blocker KB-R7943 on Myocardial Ischemia–Reperfusion Injury in Hypercholesterolemic Rats
Na+/Ca2+交换阻滞剂KB-R7943对高胆固醇血症大鼠心肌缺血再灌注损伤的保护作用
- DOI:
10.1007/s12013-012-9474-7 - 发表时间:
2012 - 期刊:
- 影响因子:2.6
- 作者:
Y. Lv;Yongkui Ren;Lufan Sun;Shaojun Wang;Minjie Wei;D. Jia - 通讯作者:
D. Jia
Semi-supervised Discriminative Structured Prediction
半监督判别结构化预测
- DOI:
10.21236/ada593701 - 发表时间:
2013 - 期刊:
- 影响因子:0
- 作者:
Shaojun Wang - 通讯作者:
Shaojun Wang
Involvement of RNA helicase p68 in skin wound healing process in rats.
RNA 解旋酶 p68 参与大鼠皮肤伤口愈合过程。
- DOI:
- 发表时间:
2017 - 期刊:
- 影响因子:0
- 作者:
Shaojun Wang;Lu Du;Chunmeng Shi - 通讯作者:
Chunmeng Shi
Formation of laser-induced periodic surface nanometric concentric ring structures on silicon surfaces through single-spot irradiation with orthogonally polarized femtosecond laser double-pulse sequences
通过正交偏振飞秒激光双脉冲序列单点照射在硅表面形成激光诱导周期性表面纳米同心环结构
- DOI:
10.1515/nanoph-2020-0568 - 发表时间:
2021 - 期刊:
- 影响因子:7.5
- 作者:
Wei Liu;Jie Hu;Lan Jiang;Ji Huang;Jiangang Lu;Jiangang Yin;Zhaoling Qiu;Hailin Liu;Chen Li;Suocheng Wang;Shaojun Wang - 通讯作者:
Shaojun Wang
Feeding-strategy effect of Pheidole ants on microbial carbon and physicochemical properties in tropical forest soils
- DOI:
doi.org/10.1016/j.apsoil.2018.10.006 - 发表时间:
2018 - 期刊:
- 影响因子:
- 作者:
Shaojun Wang - 通讯作者:
Shaojun Wang
Shaojun Wang的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Shaojun Wang', 18)}}的其他基金
RI-Small: Exploiting Syntactic, Semantic and Lexical Regularities in Statistical Language Modeling
RI-Small:在统计语言建模中利用句法、语义和词汇规律
- 批准号:
0812483 - 财政年份:2008
- 资助金额:
$ 46万 - 项目类别:
Standard Grant
相似国自然基金
昼夜节律性small RNA在血斑形成时间推断中的法医学应用研究
- 批准号:
- 批准年份:2024
- 资助金额:0.0 万元
- 项目类别:省市级项目
tRNA-derived small RNA上调YBX1/CCL5通路参与硼替佐米诱导慢性疼痛的机制研究
- 批准号:n/a
- 批准年份:2022
- 资助金额:10.0 万元
- 项目类别:省市级项目
Small RNA调控I-F型CRISPR-Cas适应性免疫性的应答及分子机制
- 批准号:32000033
- 批准年份:2020
- 资助金额:24.0 万元
- 项目类别:青年科学基金项目
Small RNAs调控解淀粉芽胞杆菌FZB42生防功能的机制研究
- 批准号:31972324
- 批准年份:2019
- 资助金额:58.0 万元
- 项目类别:面上项目
变异链球菌small RNAs连接LuxS密度感应与生物膜形成的机制研究
- 批准号:81900988
- 批准年份:2019
- 资助金额:21.0 万元
- 项目类别:青年科学基金项目
肠道细菌关键small RNAs在克罗恩病发生发展中的功能和作用机制
- 批准号:31870821
- 批准年份:2018
- 资助金额:56.0 万元
- 项目类别:面上项目
基于small RNA 测序技术解析鸽分泌鸽乳的分子机制
- 批准号:31802058
- 批准年份:2018
- 资助金额:26.0 万元
- 项目类别:青年科学基金项目
Small RNA介导的DNA甲基化调控的水稻草矮病毒致病机制
- 批准号:31772128
- 批准年份:2017
- 资助金额:60.0 万元
- 项目类别:面上项目
基于small RNA-seq的针灸治疗桥本甲状腺炎的免疫调控机制研究
- 批准号:81704176
- 批准年份:2017
- 资助金额:20.0 万元
- 项目类别:青年科学基金项目
水稻OsSGS3与OsHEN1调控small RNAs合成及其对抗病性的调节
- 批准号:91640114
- 批准年份:2016
- 资助金额:85.0 万元
- 项目类别:重大研究计划
相似海外基金
Developing a novel therapeutic strategy to overcome multidrug resistance in small-cell lung cancer by activating innate immunity
开发一种新的治疗策略,通过激活先天免疫来克服小细胞肺癌的多药耐药性
- 批准号:
23K07639 - 财政年份:2023
- 资助金额:
$ 46万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Limbo urbanism: developing planning theories and practices from small but rapidly urbanising places in the South West Asian/North African region
《地狱边境城市主义:从西南亚/北非地区小型但快速城市化的地方发展规划理论和实践》
- 批准号:
ES/Y007735/1 - 财政年份:2023
- 资助金额:
$ 46万 - 项目类别:
Fellowship
AEON - Development of an innovative, floating, dual-energy platform (60kW) for Small Island Developing States
AEON - 为小岛屿发展中国家开发创新型浮动双能源平台(60kW)
- 批准号:
10041204 - 财政年份:2023
- 资助金额:
$ 46万 - 项目类别:
Collaborative R&D
Learn, transfer, generate: Developing novel deep learning models for enhancing robustness and accuracy of small-scale single-cell RNA sequencing studies
学习、转移、生成:开发新颖的深度学习模型,以增强小规模单细胞 RNA 测序研究的稳健性和准确性
- 批准号:
10535708 - 财政年份:2023
- 资助金额:
$ 46万 - 项目类别:
A novel miniaturised atmospheric aerosol satellite instrument: developing a small form factor multi-angle spectropolarimeter
新型小型化大气气溶胶卫星仪器:开发小型多角度分光偏振计
- 批准号:
2780824 - 财政年份:2022
- 资助金额:
$ 46万 - 项目类别:
Studentship
Developing novel small molecule boosting agents for anti-cancer engineered T cell therapies
开发用于抗癌工程 T 细胞疗法的新型小分子增强剂
- 批准号:
486498 - 财政年份:2022
- 资助金额:
$ 46万 - 项目类别:
Studentship Programs
Developing corrector small molecules for reactivation of mutant p53 in cancer
开发用于重新激活癌症中突变 p53 的校正小分子
- 批准号:
10512976 - 财政年份:2022
- 资助金额:
$ 46万 - 项目类别:
Developing travel behaviour models, and transportation and emissions simulation tools for a small Canadian municipality
为加拿大的一个小城市开发出行行为模型以及交通和排放模拟工具
- 批准号:
567108-2021 - 财政年份:2022
- 资助金额:
$ 46万 - 项目类别:
Alliance Grants
Characterizing and developing RNA biosensors to small metabolites
表征和开发小代谢物的 RNA 生物传感器
- 批准号:
573543-2022 - 财政年份:2022
- 资助金额:
$ 46万 - 项目类别:
University Undergraduate Student Research Awards
Analysis of the impacts of environmental fluctuations and commercial catches of small pelagic fishes on a coastal ecosystem for developing sustainable fishery management strategies
分析环境波动和小型中上层鱼类商业捕捞对沿海生态系统的影响,以制定可持续渔业管理战略
- 批准号:
22K05804 - 财政年份:2022
- 资助金额:
$ 46万 - 项目类别:
Grant-in-Aid for Scientific Research (C)