配列の対を生成する統計的言語モデルの開発と配列解析への適用

生成序列对的统计语言模型的开发及其在序列分析中的应用

基本信息

  • 批准号:
    15700244
  • 负责人:
  • 金额:
    $ 1.73万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
  • 财政年份:
    2003
  • 资助国家:
    日本
  • 起止时间:
    2003 至 2005
  • 项目状态:
    已结题

项目摘要

本研究の対象である,複雑な構造を持つ配列を解析するための統計的言語モデルとして,大域的な依存性を持つ配列(大域依存配列)の対を生成する効率的な言語モデルを開発した.ここでは大域的な依存性として,回文のような任意の距離で離れている文字間の依存性を考えた.このような大域依存配列の対を生成する既存の統計的言語モデルとして,対確率文脈自由文法が知られているが,この文法では,尤度の計算に文長の6乗に比例する時間が計算時間として必要になる.これに対して,開発したモデルでは文長の4乗に比例する時間で尤度の計算時間の上限が抑えられることを示し,開発したモデルにより時間効率が向上できることを明らかにした.このモデルは,大域依存配列を生成する効率的な言語モデルを開発し,対の配列に対する文法に拡張することにより実現された.大域依存配列に対する既存の言語モデルである確率文脈自由文法では,尤度の計算に文長の3乗に比例する時間が必要となる.一方,開発したモデルでは,大域依存配列を表せる表現力を持ちながら,尤度の計算時間は文長の2乗に比例する時間で抑えられることを示し,効率性を向上させた.合わせて,確率パラメータをデータから学習するEMアルゴリズムを導出し,尤度を増加させるパラメータ更新に掛かる時間も文長の2乗に比例する時間で抑えられることを示した.これらの結果をまとめた論文を現在投稿している.また,昨年まで行なった(a)順序付きラベル木に対する確率モデルと(b)確率モデルに基づくグラフ構造の解析方法について,(a)はバイオインフォマティクスの特集号,(b)は化学情報学の論文誌にそれぞれ論文が掲載された.
This study aims to analyze the structure of complex structure, maintain alignment, analyze statistical speech, and develop effective speech for large domain dependency, maintain alignment (large domain dependency alignment), and generate pairs. A study of the dependency between characters in a large domain, a palindrome and an arbitrary distance. The large domain dependent arrangement and the corresponding generation of existing statistical speech patterns, the accuracy of context-free grammar, the grammar, especially the calculation of text length and 6-point ratio, the calculation time and the necessary time. The time limit of the calculation time is higher than the time limit of the calculation time. This is the first time that a domain dependent arrangement has been created. Large domain dependent arrangement is necessary for the calculation of the length of text and the proportion of text in the context of free grammar. On the one hand, the development of a large domain depends on the allocation of the table, the performance of the table, especially the calculation time and the length of the text, the proportion of the time, the efficiency of the table. In addition, the accuracy of the rate of change in the learning process, especially the increase in the rate of change in the learning process, and the increase in the rate of change in the learning process. The results of this paper are now being submitted. In the past year, we have conducted research on (a) the accuracy of the sequence analysis,(b) the accuracy of the analysis method of the basic structure,(a) the special collection number of the chemical information,(b) the paper published in the Journal of Chemical Informatics.

项目成果

期刊论文数量(1)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
A probabilistic model for mining labeled ordered trees: capturing patterns in carbohydrate sugar chains
挖掘标记有序树的概率模型:捕获碳水化合物糖链中的模式
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

上田 展久其他文献

上田 展久的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('上田 展久', 18)}}的其他基金

実構造データに対する確率モデルの学習手法の開発
开发真实结构化数据概率模型的学习方法
  • 批准号:
    18700144
  • 财政年份:
    2006
  • 资助金额:
    $ 1.73万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了