A study on optimazation of units for statistical language models

统计语言模型单位优化研究

基本信息

  • 批准号:
    14580403
  • 负责人:
  • 金额:
    $ 2.56万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
  • 财政年份:
    2002
  • 资助国家:
    日本
  • 起止时间:
    2002 至 2004
  • 项目状态:
    已结题

项目摘要

In this project, we investigated and reconsidered two kinds of ‘units' as a basic property of statistical language models. The first unit we reconsidered is ‘tokens' or ‘entries of a dictionary' which are minimal units of sentences. Ordinary statistical language models use words or characters as tokens. But for some applications such as machine translations, we know uses of longer tokens such as phrases improve the system performance. We focused on automatic phrase extractions to build up dictionaries for machine translations with a statistical criterion. We proposed new criteria, minimal mutual information, and showed the method is better than previous phrase extraction methods.Another kind of unit we reconsidered is ‘targets' which are assessed by the models. Ordinary statistical language models evaluate ‘sentences' as targets of applications. But many language applications have to output text which is made up with multiple sentences. We proposed a model to evaluate whole text using Dirichlet mixtures as a distribution for parameters of a multinomial distribution, whose compound distribution is Polya mixtures. We showed lower perplexity of our model than that of the other text models such as the latent Dirichlet allocation(LDA). Experiments of speech recognizer for read documents showed the models effectively correct many misrecognition words using information of whole text.
在这个项目中,我们研究和重新考虑了两种“单位”作为统计语言模型的基本属性。我们重新考虑的第一个单位是“单词”或“字典条目”,它们是句子的最小单位。普通的统计语言模型使用单词或字符作为标记。但是对于一些应用程序,如机器翻译,我们知道使用更长的标记,如短语,可以提高系统性能。我们专注于自动短语提取,以建立具有统计标准的机器翻译词典。我们提出了新的准则,最小互信息,并表明该方法是优于以往的短语提取方法。另一类我们重新考虑的单位是“目标”,这是由模型评估。普通的统计语言模型评估“句子”作为应用程序的目标。但是许多语言应用程序必须输出由多个句子组成的文本。我们提出了一个模型来评估整个文本使用Dirichlet混合物作为一个多项分布,其复合分布是Polya混合物的参数的分布。我们发现,我们的模型比其他文本模型,如潜在的狄利克雷分配(LDA)的困惑。对阅读文本的语音识别实验表明,该模型能有效地利用全文信息纠正大量误识词。

项目成果

期刊论文数量(19)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
三品拓也: "確率的LSAに基づくtrigramモデルを用いた日本語スペルチェッカ"言語処理学会 第9回年次大会 発表論文集. (2003)
Takuy​​a Mishina:“使用基于概率 LSA 的三元组模型的日语拼写检查器”语言处理学会第九届年会论文集(2003 年)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
Context adaptation using variational Bayesian learning for ngram models based on probabilistic LSA
基于概率 LSA 的 ngram 模型使用变分贝叶斯学习进行上下文自适应
三品拓也: "確率的LSAに基づくngramモデルの変化ベイズ学習を利用した文脈適応化"情報処理学会研究報告. SLP-44. 177-182 (2002)
Takuy​​a Mishina:“基于随机 LSA 的 ngram 模型的变化贝叶斯学习的上下文适应”日本信息处理学会研究报告 177-182 (2002)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
混合ディリクレ分布パラメータの階層ベイズモデルを用いたスムージング法
使用混合狄利克雷分布参数的分层贝叶斯模型的平滑方法
三品拓也: "確率的LSAに基づくngramモデルの変分ベイズ学習を利用した文脈適応化"電子情報通信学会和文論文誌D-II. (未定). (2004)
Takuy​​a Mishina:“基于概率 LSA 的 ngram 模型的变分贝叶斯学习的上下文适应”IEICE 日本期刊 D-II(待定)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

YAMAMOTO Mikio其他文献

YAMAMOTO Mikio的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('YAMAMOTO Mikio', 18)}}的其他基金

Construction speedup and deepening of partially transpose double array ngram language models
部分转置双数组ngram语言模型的构建加速和深化
  • 批准号:
    18K11423
  • 财政年份:
    2018
  • 资助金额:
    $ 2.56万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
An aproach to high dimensional regression problems on small text data using topic models
使用主题模型解决小文本数据高维回归问题的方法
  • 批准号:
    15K12149
  • 财政年份:
    2015
  • 资助金额:
    $ 2.56万
  • 项目类别:
    Grant-in-Aid for Challenging Exploratory Research
A study on compact and fast translation and language models for statistical machine translation
统计机器翻译的紧凑快速翻译和语言模型研究
  • 批准号:
    15H02744
  • 财政年份:
    2015
  • 资助金额:
    $ 2.56万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Accessible Design of the educational support based on AICT Cloud
基于AICT云的教育支持的无障碍设计
  • 批准号:
    25560113
  • 财政年份:
    2013
  • 资助金额:
    $ 2.56万
  • 项目类别:
    Grant-in-Aid for Challenging Exploratory Research
Study of Accessible design for AICT-driven Educational support
AICT 驱动的教育支持的无障碍设计研究
  • 批准号:
    23650541
  • 财政年份:
    2011
  • 资助金额:
    $ 2.56万
  • 项目类别:
    Grant-in-Aid for Challenging Exploratory Research
Phrase reordering models integrating words, phrases and language models for statistical machine translation
集成单词、短语和语言模型的短语重新排序模型,用于统计机器翻译
  • 批准号:
    21300048
  • 财政年份:
    2009
  • 资助金额:
    $ 2.56万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Study for educational support system by using speech recognition technology
利用语音识别技术的教育支持系统研究
  • 批准号:
    20700640
  • 财政年份:
    2008
  • 资助金额:
    $ 2.56万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
Development of statistical machine translation mode using Bayesian statistics
使用贝叶斯统计开发统计机器翻译模式
  • 批准号:
    19500114
  • 财政年份:
    2007
  • 资助金额:
    $ 2.56万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Improvement of topic-based language models using Dirichlet mixtures and their applications
基于狄利克雷混合的基于主题的语言模型的改进及其应用
  • 批准号:
    17500105
  • 财政年份:
    2005
  • 资助金额:
    $ 2.56万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)

相似海外基金

mLMT: Multimodal Large Machine Translation Model
mLMT:多模态大型机器翻译模型
  • 批准号:
    24K20841
  • 财政年份:
    2024
  • 资助金额:
    $ 2.56万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
Evaluating the Use of Machine Translation through Eye Tracking
通过眼动追踪评估机器翻译的使用
  • 批准号:
    24K04055
  • 财政年份:
    2024
  • 资助金额:
    $ 2.56万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Use and Concept in Neural Machine Translation and Cross-Linguistic Divergence
神经机器翻译和跨语言分歧中的使用和概念
  • 批准号:
    23K21872
  • 财政年份:
    2024
  • 资助金额:
    $ 2.56万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Unifying Pre-training and Multilingual Semantic Representation Learning for Low-resource Neural Machine Translation
统一预训练和多语言语义表示学习以实现低资源神经机器翻译
  • 批准号:
    22KJ1843
  • 财政年份:
    2023
  • 资助金额:
    $ 2.56万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
Multilingual corpus construction and domain adaptation for low-resource machine translation
低资源机器翻译的多语言语料库构建和领域适应
  • 批准号:
    22KJ1724
  • 财政年份:
    2023
  • 资助金额:
    $ 2.56万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
Prevent or Integrate: Machine Translation Usage in the Language Classroom
预防或整合:语言课堂中机器翻译的使用
  • 批准号:
    23K12258
  • 财政年份:
    2023
  • 资助金额:
    $ 2.56万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
FAI: A Human-Centered Approach to Developing Accessible and Reliable Machine Translation
FAI:以人为本的方法来开发可访问且可靠的机器翻译
  • 批准号:
    2147292
  • 财政年份:
    2022
  • 资助金额:
    $ 2.56万
  • 项目类别:
    Standard Grant
Beyond parallel corpora: Enriching low-resource machine translation by leveraging language documentation data
超越并行语料库:利用语言文档数据丰富低资源机器翻译
  • 批准号:
    570119-2022
  • 财政年份:
    2022
  • 资助金额:
    $ 2.56万
  • 项目类别:
    Postgraduate Scholarships - Doctoral
Use and Concept in Neural Machine Translation and Cross-Linguistic Divergence
神经机器翻译和跨语言分歧中的使用和概念
  • 批准号:
    22H00600
  • 财政年份:
    2022
  • 资助金额:
    $ 2.56万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Interpreting deep neural machine translation models to understand genomic functions
解释深度神经机器翻译模型以了解基因组功能
  • 批准号:
    547291-2020
  • 财政年份:
    2022
  • 资助金额:
    $ 2.56万
  • 项目类别:
    Postgraduate Scholarships - Doctoral
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了