ゲノム配列からの高次圧縮・クラスタリングによる知識発見

通过基因组序列的高阶压缩和聚类发现知识

基本信息

  • 批准号:
    13208002
  • 负责人:
  • 金额:
    $ 2.56万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas (C)
  • 财政年份:
    2000
  • 资助国家:
    日本
  • 起止时间:
    2000 至 2001
  • 项目状态:
    已结题

项目摘要

ゲノム計回では様々な生物のDNA配列の解読が進んでおり,さらにDNA配列中のタンパク質のコーディング領域の推定や,タンパク質の機能の予測などが行われている.また,異なる生物のDNAやアミノ酸配列の間の類似度を計算し,それによつて構造や機能の予測や,進化系統樹の解析が行われている。本研究ではこれらの問題に対する文字列の高次圧縮の研究を目指した.具体的には、文字列を圧縮したまま高速に検索するデータ構造の研究を行った.特に,様々な問題を解く際に用いることができる汎用的な索引の研究を行った.ヒトゲノム27億塩基に対して、任意のパタンを検索可能を索引である接尾辞配列のサイズは約11Gバイトであるが、それを約2Gバイトに圧縮した。索引を圧縮することでコンピュータのメモリ内に格納することが可能になり,高速検索が行える.任意のパタンの高速検索が可能な接尾辞配列の圧縮に関する研究はごく最近に始まったものであり,まだ理論的な結果のみが示されているのみである.実際に索引を構成している例もあるが,データ量はあまり大きくない.本研究では大量のデータに対して実際に索引を作成している.圧縮された索引を用いて配列を検索する場合・圧縮されていない索引を用いた場合と同じアルゴリズムを使えるが,アルゴリズムによっては速度が低下する場合がある.また,索引生成時に必要なメモリ量が大きいため,索引の生成にはスーパーコンピュータを用いてこの問題点を解決した。
In order to predict the DNA sequence of living organisms, we need to estimate the DNA sequence of living organisms, predict the DNA sequence of living organisms, and predict the DNA sequence of living organisms. In addition, the similarity between DNA and acid sequences of different organisms was calculated, and the prediction of structure and function was carried out, and the analysis of evolutionary phylogenetic tree was carried out. This study is aimed at the study of high compression of text strings in response to these problems. A study on the structure of the concrete structure of the structure of the structure Special problems are solved by using universal indexes. A total of 2,700 million people were killed in the attack, and about 2,000 were injured. Index compression is the most common way to search for information. A study on the relationship between the high speed search of arbitrary objects and the compression of word arrangement has been carried out recently, and the results of theoretical research have been shown. In fact, the index is composed of two parts: one part is composed of two parts, the other part is composed of two parts. In this study, a large number of data sets were generated and indexed. When the compression index is used in the column search, the compression index is used in the case where the compression index is used in the column search, and the compression index is used in the case where the compression index is used in the column search. When the index is generated, the necessary amount is too large to solve the problem.

项目成果

期刊论文数量(3)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Sadakane, K., Shibuya, T.: "Indexing Huge Genome Sequences for Solving Various Problems"Genome Informatics 2001', Universal Academy Press. 175-183 (2002)
Sadakane, K., Shibuya, T.:“索引巨大的基因组序列以解决各种问题”基因组信息学 2001,环球学院出版社。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
Sadakane, K.: "Succinct Representations of lcp Information and Improvements in the Compressed Suffix Arrays"Proceedings of ACM-SIAM Symposium on Discrete Algorithms. 225-232 (2002)
Sadakane, K.:“lcp 信息的简洁表示和压缩后缀数组的改进”ACM-SIAM 离散算法研讨会论文集。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
Sadakane, K., Imai, H.: "Fast Algorithms for k-Word Proximity Search"IEICE Trans. Fundamentals.. E-84A, 9. 2311-2318 (2002)
Sadakane, K., Imai, H.:“k 词邻近搜索的快速算法”IEICE Trans。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

稲葉 真理其他文献

flat-C:超並列計算機向けC言語の実現
flat-C:大规模并行计算机的C语言实现
細粒度パケット間隔制御の実装と評価
细粒度数据包间隔控制的实现与评估
動的再構成を用いたアプリケーションレイヤ処理エンジンの設計
基于动态重构的应用层处理引擎设计

稲葉 真理的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('稲葉 真理', 18)}}的其他基金

SAT(充足可能性)問題の並列局所探索アルゴリズムの研究と超並列計算機への実装
SAT(可满足性)问题的并行局部搜索算法研究及其在大规模并行计算机上的实现
  • 批准号:
    11F01807
  • 财政年份:
    2011
  • 资助金额:
    $ 2.56万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
ゲノム配列からの高次圧縮・クラスタリングによる知識発見
通过基因组序列的高阶压缩和聚类发现知识
  • 批准号:
    12208012
  • 财政年份:
    2000
  • 资助金额:
    $ 2.56万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas (C)
幾可構造を利用した高次クラスタリングアルゴリズムの研究およびその応用
利用几何结构的高阶聚类算法及其应用研究
  • 批准号:
    09780247
  • 财政年份:
    1997
  • 资助金额:
    $ 2.56万
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)

相似海外基金

全ゲノム検索及び候補遺伝子アプローチによる自己免疫性甲状腺疾患感受性遺伝子の探索
利用全基因组搜索和候选基因方法寻找自身免疫性甲状腺疾病易感基因
  • 批准号:
    17790632
  • 财政年份:
    2005
  • 资助金额:
    $ 2.56万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
喘息、精神分裂病の全ゲノム検索による疾患感受性遺伝子の同定
通过全基因组搜索哮喘和精神分裂症来鉴定疾病易感基因
  • 批准号:
    12024201
  • 财政年份:
    2000
  • 资助金额:
    $ 2.56万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas (A)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了