Improvement of topic-based language models using Dirichlet mixtures and their applications

基于狄利克雷混合的基于主题的语言模型的改进及其应用

基本信息

  • 批准号:
    17500105
  • 负责人:
  • 金额:
    $ 2.37万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
  • 财政年份:
    2005
  • 资助国家:
    日本
  • 起止时间:
    2005 至 2006
  • 项目状态:
    已结题

项目摘要

For improving statistical language models, we enhanced predictive power of ngram models, which are typical language models, using topic or context information. We proposed new estimation methods for Dirichlet mixtures and evaluated the model on applications ; speech recognition and statistical machine translation.1. We developed a robust estimation method for Dirichlet mixtures language models using hierarchical Bayesian models. In order to approximate integration appeared in Bayesian inference, we used the reversing-EM and variational approximation. In the experiments using various text data, we showed the estimation method achieves the lowest perplexity level.2. Our model was integrated in speech recognition systems, and evaluated by recognition rate. Two integration methods were developed ; (1) modification of probability of trigram models using the unigram rescaling, (2) optimization on document level using document likelihood computed by our model. Comparing Latent Dirichlet Allocation (LDA) with our model, we showed the speech recognition rate of the system with our model is higher than that of LDA.3. We proposed cross-language Dirichlet mixture models which were integrated in phrase-based statistical machine translation systems. Using this model, the system can select contextually or topically correct Japanese words from candidates as translation of English input document. Experiments using newspaper articles translation showed that topic models were effective for lower perplexity.
为了改进统计语言模型,我们使用主题或上下文信息增强了典型语言模型ngram模型的预测能力。我们提出了新的估计方法的Dirichlet混合和评估模型的应用;语音识别和统计机器识别。本文提出了一种基于分层贝叶斯模型的Dirichlet混合语言模型的鲁棒估计方法。为了解决贝叶斯推理中出现的积分近似问题,我们采用了反向EM和变分近似。在使用各种文本数据的实验中,我们表明该估计方法达到了最低的困惑水平.我们的模型集成在语音识别系统中,并通过识别率进行评估。提出了两种集成方法:(1)使用unigram重新缩放修改三元组模型的概率,(2)使用我们的模型计算的文档似然在文档级上进行优化。通过对潜在狄利克雷分配算法(LDA)和本文模型的比较,我们发现本文模型的语音识别率高于LDA.我们提出了跨语言的Dirichlet混合模型,集成在基于短语的统计机器翻译系统。使用该模型,系统可以从候选词中选择上下文或主题正确的日语单词作为英文输入文档的翻译。以报刊文章为例进行的实验表明,主题模型对降低困惑是有效的。

项目成果

期刊论文数量(11)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Reordering priority decoder for statistical machine translation
重新排序统计机器翻译的优先级解码器
  • DOI:
  • 发表时间:
    2006
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Yukiko UNAMI;Kunio KONDO;岩越隼人;Rie NAKAZATO;Masao UTIYAMA;Hayato Iwakoshi
  • 通讯作者:
    Hayato Iwakoshi
混合ディリクレ分布を用いたトピックに基づく言語モデル
使用混合狄利克雷分布的基于主题的语言模型
英日統計的機械翻訳における語順優先探索デコーダ
英日统计机器翻译中的词序优先搜索解码器
Topic-based language models using Dirichlet Mixtures
  • DOI:
    10.1002/scj.20629
  • 发表时间:
    2007
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Kugatsu Sadamitsu;T. Mishina;Mikio Yamamoto
  • 通讯作者:
    Kugatsu Sadamitsu;T. Mishina;Mikio Yamamoto
Document level optimization in speech recognition
语音识别中的文档级优化
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

YAMAMOTO Mikio其他文献

YAMAMOTO Mikio的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('YAMAMOTO Mikio', 18)}}的其他基金

Construction speedup and deepening of partially transpose double array ngram language models
部分转置双数组ngram语言模型的构建加速和深化
  • 批准号:
    18K11423
  • 财政年份:
    2018
  • 资助金额:
    $ 2.37万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
An aproach to high dimensional regression problems on small text data using topic models
使用主题模型解决小文本数据高维回归问题的方法
  • 批准号:
    15K12149
  • 财政年份:
    2015
  • 资助金额:
    $ 2.37万
  • 项目类别:
    Grant-in-Aid for Challenging Exploratory Research
A study on compact and fast translation and language models for statistical machine translation
统计机器翻译的紧凑快速翻译和语言模型研究
  • 批准号:
    15H02744
  • 财政年份:
    2015
  • 资助金额:
    $ 2.37万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Accessible Design of the educational support based on AICT Cloud
基于AICT云的教育支持的无障碍设计
  • 批准号:
    25560113
  • 财政年份:
    2013
  • 资助金额:
    $ 2.37万
  • 项目类别:
    Grant-in-Aid for Challenging Exploratory Research
Study of Accessible design for AICT-driven Educational support
AICT 驱动的教育支持的无障碍设计研究
  • 批准号:
    23650541
  • 财政年份:
    2011
  • 资助金额:
    $ 2.37万
  • 项目类别:
    Grant-in-Aid for Challenging Exploratory Research
Phrase reordering models integrating words, phrases and language models for statistical machine translation
集成单词、短语和语言模型的短语重新排序模型,用于统计机器翻译
  • 批准号:
    21300048
  • 财政年份:
    2009
  • 资助金额:
    $ 2.37万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Study for educational support system by using speech recognition technology
利用语音识别技术的教育支持系统研究
  • 批准号:
    20700640
  • 财政年份:
    2008
  • 资助金额:
    $ 2.37万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
Development of statistical machine translation mode using Bayesian statistics
使用贝叶斯统计开发统计机器翻译模式
  • 批准号:
    19500114
  • 财政年份:
    2007
  • 资助金额:
    $ 2.37万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
A study on optimazation of units for statistical language models
统计语言模型单位优化研究
  • 批准号:
    14580403
  • 财政年份:
    2002
  • 资助金额:
    $ 2.37万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)

相似海外基金

SGER: Self-Supervised Discriminative Training of Statistical Language Models
SGER:统计语言模型的自监督判别训练
  • 批准号:
    0840112
  • 财政年份:
    2008
  • 资助金额:
    $ 2.37万
  • 项目类别:
    Standard Grant
A study on optimazation of units for statistical language models
统计语言模型单位优化研究
  • 批准号:
    14580403
  • 财政年份:
    2002
  • 资助金额:
    $ 2.37万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Improved Statistical Language Models
改进的统计语言模型
  • 批准号:
    9319516
  • 财政年份:
    1994
  • 资助金额:
    $ 2.37万
  • 项目类别:
    Continuing Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了