ゲノム配列からの高次圧縮・クラスタリングによる知識発見

通过基因组序列的高阶压缩和聚类发现知识

基本信息

  • 批准号:
    12208012
  • 负责人:
  • 金额:
    --
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas (C)
  • 财政年份:
    2000
  • 资助国家:
    日本
  • 起止时间:
    2000 至 无数据
  • 项目状态:
    已结题

项目摘要

DNA配列,たんぱく質配列に対する高圧縮率な圧縮アルゴリズムを開発した.既存の手法ではLZ77圧縮法を元にし,配列中のあいまい一致や回文構造を利用したものが用いられていたが,これと文脈木重み付け法を組み合わせることでDNAに対する圧縮率を改善できた.またたんぱく質に関しては既存の手法ではほとんど圧縮できていなかったが,文脈木重み付け法とあいまい一致を考慮したLZ77法を組み合わせることで高い圧縮率を達成できた.またLZ77圧縮のためのハッシュや接尾辞配列を用いた高速なアルゴリズムも考案した.ゲノム配列データベースは巨大になっているが,これを圧縮したまま高速に検索するデータ構造を考案した.これは接尾辞配列を圧縮したものを用いており,データベース全体を走査することなく任意の文字列を検索できる.またデータベース中の任意の部分を高速に復元するアルゴリズムや,データマイニングで用いられる索引をコンパクトに格納する方法を考案した.実験により,圧縮された配列や文書と,検索のための索引のサイズの合計を元の文書のサイズより小さくできることを示した.このデータ構造を用いてゲノム配列中のあいまい一致を高速に求めるアルゴリズムなどを実現できるため,類似配列の検索などのさまざまな演算を効率よく行うことができる.
DNA coordination,たんぱく mass coordination に against する high compression rate な compression ア ゴリズムを ゴリズムを development た. Existing の gimmick で は LZ77 圧 shrinkage method を yuan に し, match column の あ い ま い consistent や を palindrome structure using し た も の が with い ら れ て い た が, こ れ と context wood heavy み pay け を group み close わ せ る こ と DNA に で す seaborne る 圧 shrinkage を improve で き た. ま た た ん ぱ く qualitative に masato し て は existing の gimmick で は ほ と ん ど 圧 shrinkage で き て い な か っ た が, context wood heavy み pay け method と あ い ま い consistent を consider し た LZ77 を group み close わ せ る こ と で high い 圧 shrinkage を reached で き た. ま た LZ77 圧 shrinkage の た め の ハ ッ シ ュ や tail quit mating by い を た high-speed な ア ル ゴ リ ズ ム も test case し た. ゲ ノ ム match column デ ー タ ベ ー ス は huge に な っ て い る が, こ れ を 圧 し た ま ま high-speed に 検 cable す る デ ー タ tectonic を test case し た. こ れ は tail quit mating column を 圧 shrinkage し た も の を with い て お り, デ ー タ ベ ー ス all を walkthrough す る こ と な く arbitrary の text columns を 検 cable で き る. ま た デ ー タ ベ ー ス を の の any part of a high-speed に recovery す る ア ル ゴ リ ズ ム や, デ ー タ マ イ ニ ン グ で with い ら れ る index Youdaoplaceholder0 た パ トに トに トに the gener する method を the study case た た. Be 験 に よ り, 圧 さ れ た with や clerical と, 検 cable の た め の index の サ イ ズ の combined を yuan の documents の サ イ ズ よ り small さ く で き る こ と を shown し た. こ の デ ー を タ structure with い て ゲ ノ ム match column の あ い ま い consistent を high-speed に o め る ア ル ゴ リ ズ ム な ど を be presently で き る た め, similar with column の 検 cable な ど の さ ま ざ ま な Calculate the を efficiency よく rows う う とがで る る る る.

项目成果

期刊论文数量(6)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
K.Sadakane: "Compressed Text Databases with Efficient Query Algorithms based on the Compressed Suffix Array"Proceedings of ISAAC'00, Lecture Notes in Computer Science. 1969. 410-421 (2000)
K.Sadakane:“基于压缩后缀数组的具有高效查询算法的压缩文本数据库”ISAAC00 会议记录,计算机科学讲义。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
T.Matsumoto,K.Sadakane and H.Imai: "Biological Sequence Compression Algorithms"Genome Informatics 2000. 43-52 (2000)
T.Matsumoto、K.Sadakane 和 H.Imai:“生物序列压缩算法”基因组信息学 2000. 43-52 (2000)
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
定兼邦彦: "圧縮接尾辞配列に関する考察"情報処理学会SIGDBS. (2000)
Kunihiko Sadakane:“压缩后缀数组的研究”日本信息处理协会 SIGDBS(2000)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
K.Sadakane: "Algorithms on Strings based on the Compressed Suffix Arrays"情報処理学会SIGAL. (2000)
K. Sadakane:“基于压缩后缀数组的字符串算法”日本信息处理协会 SIGAL (2000)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
M.Inaba,N.Katoh and H.Imai: "Variance-Based κ-Clustering Algorithms by Voronoi Diagrams and Randomization"IEICE Trans.Information and Systems. E83-D,6. 1199-1206 (2000)
M.Inaba、N.Katoh 和 H.Imai:“Voronoi 图和随机化的基于方差的 κ 聚类算法”IEICE Trans.Information and Systems,1199-1206 (2000)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

稲葉 真理其他文献

flat-C:超並列計算機向けC言語の実現
flat-C:大规模并行计算机的C语言实现
細粒度パケット間隔制御の実装と評価
细粒度数据包间隔控制的实现与评估
動的再構成を用いたアプリケーションレイヤ処理エンジンの設計
基于动态重构的应用层处理引擎设计

稲葉 真理的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('稲葉 真理', 18)}}的其他基金

SAT(充足可能性)問題の並列局所探索アルゴリズムの研究と超並列計算機への実装
SAT(可满足性)问题的并行局部搜索算法研究及其在大规模并行计算机上的实现
  • 批准号:
    11F01807
  • 财政年份:
    2011
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
ゲノム配列からの高次圧縮・クラスタリングによる知識発見
通过基因组序列的高阶压缩和聚类发现知识
  • 批准号:
    13208002
  • 财政年份:
    2000
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas (C)
幾可構造を利用した高次クラスタリングアルゴリズムの研究およびその応用
利用几何结构的高阶聚类算法及其应用研究
  • 批准号:
    09780247
  • 财政年份:
    1997
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Encouragement of Young Scientists (A)

相似海外基金

音声離散表現の超圧縮による教師なし音声言語学習の言語学的妥当性向上
通过超压缩离散语音表示提高无监督口语学习的语言有效性
  • 批准号:
    24K15087
  • 财政年份:
    2024
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
超並列システム向け可逆データ圧縮法の提案と実用化
大规模并行系统可逆数据压缩方法的提出及实际应用
  • 批准号:
    23K21655
  • 财政年份:
    2024
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
2の偶数冪乗個に階層分割可能な六角形格子座標理論の構築と軌跡データ高圧縮への応用
可层次划分为2的偶次方的六方晶格坐标理论的构建及其在轨迹数据高压缩中的应用
  • 批准号:
    23K24853
  • 财政年份:
    2024
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
フリーピストン式リニア発電機の可変圧縮比燃焼サイクルを実現する負荷追従発電制御
实现自由活塞线性发电机可变压缩比燃烧循环的负载跟踪发电控制
  • 批准号:
    23K26091
  • 财政年份:
    2024
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
物理的ストレス(圧縮)による原始卵胞の休止期維持機構の解析
物理应激(压缩)维持原始卵泡静止期的机制分析
  • 批准号:
    23K23797
  • 财政年份:
    2024
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
信号類似性に着目した新理論の証明~圧縮センシング回路システムの限界突破への挑戦~
聚焦信号相似性的新理论证明 - 突破压缩传感电路系统极限的挑战 -
  • 批准号:
    24K02914
  • 财政年份:
    2024
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
軸流圧縮機に発生する旋回不安定擾乱の発生構造の調査と実験検証法の確立
轴流压气机旋流不稳定扰动产生结构研究及实验验证方法建立
  • 批准号:
    24K07310
  • 财政年份:
    2024
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
最適化問題の圧縮表現に基づく効率的最適化スキームの確立
基于优化问题压缩表示的高效优化方案的建立
  • 批准号:
    23K28038
  • 财政年份:
    2024
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
圧縮性気体-微粒子混相流の数値解析手法の確立と応用
可压缩气体-颗粒多相流数值分析方法的建立及应用
  • 批准号:
    24K17206
  • 财政年份:
    2024
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
双極渦を焦点とする非圧縮理想流の平衡状態と安定性の解明
阐明以双极涡为中心的不可压缩理想流的平衡状态和稳定性
  • 批准号:
    24K06800
  • 财政年份:
    2024
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了