SGER: Self-Supervised Discriminative Training of Statistical Language Models

SGER:统计语言模型的自监督判别训练

基本信息

  • 批准号:
    0840112
  • 负责人:
  • 金额:
    --
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2008
  • 资助国家:
    美国
  • 起止时间:
    2008-09-01 至 2010-02-28
  • 项目状态:
    已结题

项目摘要

Title: Self-Supervised Discriminative Training of Statistical Language ModelsThis Small Grant for Exploratory Research is investigating novel methods for discriminative training of statistical language models for application to various human language technologies, such as automatic speech recognition (ASR) and machine translation (MT).A language model (LM) is conventionally estimated from a large corpus of text in the target domain via regularized maximum likelihood. Discriminative criteria have been used with some success in ASR, but their immense promise has been curtailed by the requirement of an additional corpus of transcribed speech needed to discriminate between correct word sequences and their incorrect ?cohorts.? This project is exploring ways to discriminatively estimate language models without requiring massive manual annotation, namely, transcribed speech for ASR or parallel text for MT.The key idea being explored is that if a large amount of (say) monolingual Chinese text is available, then the MT cohorts of Chinese words and phrases may be accurately estimated by attempting to translate this text into (say) English using an existing MT system and examining which English words and phrases are most frequently in competition with each other. It is not necessary to know which of the competing words or phrases in a cohort set is the correct translation in any particular instance! It suffices to learn who are most often in competition. The investigators are using monolingual English text to explore features that discriminate between observed incidences of each member of a cohort set and its putative competitors; the data for discriminative training are thus derived synthetically. They are investigating if such a discriminatively trained LM specifically targets the most debilitating ambiguities faced by the MT system. The ASR counterpart, with cohort sets derived from automatic transcription of unannotated speech, is also being explored.This project benefits both the ASR and MT research communities by exploring statistical language models that can adapt without human intervention to changing tasks or language-use, and that are less reliant on manually annotated data. Advances in ASR and MT in turn will facilitate more effective computer-aided access to information in multiple languages and media.
职务名称:统计语言模型的自我监督判别训练这个探索性研究的小额资助正在研究统计语言模型的判别训练的新方法,以应用于各种人类语言技术,如自动语音识别(ASR)和机器翻译(MT)。语言模型(LM)通常通过正则化最大似然法从目标域的大型文本语料库中估计。 判别标准已被用于与一些成功的ASR,但他们的巨大的承诺已削减的要求额外语料库的转录语音需要区分正确的单词序列和他们的不正确的?同伙? 该项目正在探索在不需要大量人工注释的情况下有区别地估计语言模型的方法,即ASR的转录语音或MT的平行文本。正在探索的关键思想是,如果有大量(比如)单语中文文本可用,则通过尝试将该文本翻译成(例如)英语使用现有的机器翻译系统,并检查哪些英语单词和短语是最经常相互竞争的。 在任何特定情况下,不需要知道群组集中的哪个竞争词或短语是正确的翻译! 只要知道谁最常参加竞争就够了。 研究人员正在使用单语英语文本来探索区分队列集合中每个成员及其假定竞争对手的观察到的发病率的特征;因此,用于区分训练的数据是综合得出的。 他们正在研究这种有区别地训练的LM是否专门针对MT系统所面临的最令人衰弱的模糊性。 ASR对应的队列集来自自动转录的未注释的语音,也正在探索中。该项目通过探索统计语言模型使ASR和MT研究社区受益,这些模型可以在没有人为干预的情况下适应不断变化的任务或语言使用,并且较少依赖手动注释的数据。 自动检索和机器翻译方面的进展反过来又将促进更有效地利用计算机辅助获取多种语言和媒体的信息。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Sanjeev Khudanpur其他文献

Getting more from automatic transcripts for semi-supervised language modeling
  • DOI:
    10.1016/j.csl.2015.08.007
  • 发表时间:
    2016-03-01
  • 期刊:
  • 影响因子:
  • 作者:
    Scott Novotney;Richard Schwartz;Sanjeev Khudanpur
  • 通讯作者:
    Sanjeev Khudanpur
A dilemma of ground truth in noisy speech separation and an approach to lessen the impact of imperfect training data
  • DOI:
    10.1016/j.csl.2022.101410
  • 发表时间:
    2023-01-01
  • 期刊:
  • 影响因子:
  • 作者:
    Matthew Maciejewski;Jing Shi;Shinji Watanabe;Sanjeev Khudanpur
  • 通讯作者:
    Sanjeev Khudanpur
Towards machines that know when they do not know: Summary of work done at 2014 Frederick Jelinek Memorial workshop
走向知道何时不知道的机器:2014 年 Frederick Jelinek 纪念研讨会所做工作总结
  • DOI:
  • 发表时间:
    2015
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Hynek Hermansky;Lukas Burget;Jordan Cohen;Emmanuel Dupoux Naomi Feldman;John Godfrey;Sanjeev Khudanpur;Matthew Maciejewski;Sri Harish Mallidi;Anjali Menon;Tetsuji Ogawa;Vijayaditya Peddinti;Richard Rose;Richard Stern;Matthew Wiesner;Karel Ve
  • 通讯作者:
    Karel Ve

Sanjeev Khudanpur的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Sanjeev Khudanpur', 18)}}的其他基金

CCRI: ENS: Next Generation Tools for Spoken Language Science & Technology
CCRI:ENS:下一代口语科学工具
  • 批准号:
    2120435
  • 财政年份:
    2021
  • 资助金额:
    --
  • 项目类别:
    Standard Grant
RI: Medium: Collaborative Research: Semi-Supervised Discriminative Training of Language Models
RI:媒介:协作研究:语言模型的半监督判别训练
  • 批准号:
    0963898
  • 财政年份:
    2010
  • 资助金额:
    --
  • 项目类别:
    Continuing Grant
Cross-Cutting Research Workshops on Intelligent Information Systems
智能信息系统跨领域研究研讨会
  • 批准号:
    1005411
  • 财政年份:
    2010
  • 资助金额:
    --
  • 项目类别:
    Continuing Grant
PIRE: Investigation of Meaning Representations in Language Understanding for Machine Translation Systems
PIRE:机器翻译系统语言理解中的意义表示研究
  • 批准号:
    0530118
  • 财政年份:
    2005
  • 资助金额:
    --
  • 项目类别:
    Continuing Grant
SGER: Pronunciation Modeling for Conversational Speech Recognition
SGER:会话语音识别的发音建模
  • 批准号:
    9714169
  • 财政年份:
    1997
  • 资助金额:
    --
  • 项目类别:
    Standard Grant

相似国自然基金

Self-DNA介导的CD4+组织驻留记忆T细胞(Trm)分化异常在狼疮肾炎发病中的作用及机制研究
  • 批准号:
    82371813
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
基于受体识别和转运整合的self-DNA诱导采后桃果实抗病反应的机理研究
  • 批准号:
    32302161
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于广义测量的多体量子态self-test的实验研究
  • 批准号:
  • 批准年份:
    2021
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
Self-shrinkers的刚性及相关问题
  • 批准号:
  • 批准年份:
    2019
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
基于Self-peptide和Fe5C2构建的高敏感MR分子探针对肿瘤血管的MR靶向成像研究
  • 批准号:
    81501521
  • 批准年份:
    2015
  • 资助金额:
    18.0 万元
  • 项目类别:
    青年科学基金项目
平均曲率流中非紧Self-shrinkers的结构
  • 批准号:
    11301190
  • 批准年份:
    2013
  • 资助金额:
    22.0 万元
  • 项目类别:
    青年科学基金项目
2维伪欧氏空间下平均曲率流中Self-shrinker问题的研究
  • 批准号:
    11126152
  • 批准年份:
    2011
  • 资助金额:
    3.0 万元
  • 项目类别:
    数学天元基金项目
晶态桥联聚倍半硅氧烷的自导向组装(self-directed assembly)及其发光性能
  • 批准号:
    21171046
  • 批准年份:
    2011
  • 资助金额:
    55.0 万元
  • 项目类别:
    面上项目
成束蛋白Fascin1在肺癌"self-seeding"过程中的作用及机制研究
  • 批准号:
    81001041
  • 批准年份:
    2010
  • 资助金额:
    22.0 万元
  • 项目类别:
    青年科学基金项目
工业用腈水合酶全新蛋白质翻译后调节体系self-subunit swapping的研究
  • 批准号:
    31070711
  • 批准年份:
    2010
  • 资助金额:
    35.0 万元
  • 项目类别:
    面上项目

相似海外基金

Self-Supervised Sequential Biomedical Image-Omics
自监督序贯生物医学图像组学
  • 批准号:
    DE240100168
  • 财政年份:
    2024
  • 资助金额:
    --
  • 项目类别:
    Discovery Early Career Researcher Award
Investigating the Trustworthiness of Deep Pre-trained and Self-supervised Learned Model.
研究深度预训练和自监督学习模型的可信度。
  • 批准号:
    24K20806
  • 财政年份:
    2024
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
A data-saving and self-supervised deep learning system for continuous ischemic stroke assessment
用于连续缺血性中风评估的数据保存和自我监督深度学习系统
  • 批准号:
    24K15011
  • 财政年份:
    2024
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Self-supervised feature learning for rapid processing of marine imagery
用于快速处理海洋图像的自监督特征学习
  • 批准号:
    LP220200949
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
    Linkage Projects
SCH: Dementia Early Detection for Under-represented Populations via Fair Multimodal Self-Supervised Learning
SCH:通过公平的多模式自我监督学习对代表性不足的人群进行痴呆症早期检测
  • 批准号:
    10816864
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
Development of a Sign Language Recognition Engine Using Self-Supervised Learning Methods
使用自我监督学习方法开发手语识别引擎
  • 批准号:
    23K17511
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Challenging Research (Exploratory)
Self-supervised Representation Learningfrom Physical 3D Worl d
物理 3D 世界的自监督表示学习
  • 批准号:
    2883000
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
    Studentship
Discovering the dynamics of cloud development through the embedding space of a self-supervised neural network
通过自监督神经网络的嵌入空间发现云发展的动态
  • 批准号:
    2886013
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
    Studentship
CAREER: Probabilistic Framework for Self-Supervised, Data-Driven Computational Imaging
职业:自我监督、数据驱动的计算成像的概率框架
  • 批准号:
    2236796
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
    Continuing Grant
CRII: III: Self-Supervised Graph Neural Network Meta-Learning for Cancer Multi-Omics and Driver Discovery
CRII:III:用于癌症多组学和驱动发现的自监督图神经网络元学习
  • 批准号:
    2245805
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了