ゲノム配列の高次圧縮・索引構築と高次幾何構造解析による知識発見

通过基因组序列的高阶压缩和索引构建以及高阶几何结构分析进行知识发现

基本信息

  • 批准号:
    14015204
  • 负责人:
  • 金额:
    $ 2.3万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
  • 财政年份:
    2002
  • 资助国家:
    日本
  • 起止时间:
    2002 至 无数据
  • 项目状态:
    已结题

项目摘要

ゲノムデータベースからの知識発見のためのアルゴリズムとデータ構造に関する研究を行った.まず,ゲノム配列データベースからの高速パタン検索のアルゴリズムとデータ構造を開発した.索引としては既存の圧縮接尾辞配列を用いたが,新しいアルゴリズムにより従来の30倍の速度での検索が可能になった.次に,2つの長いゲノム配列のアラインメントを計算するための手法である,MUM(Maximal Unique Match)を列挙する省スペースなアルゴリズムを開発した.配列の長さをnとすると,既存手法ではO(n log n)ビットのスペースが必要であったが,本研究ではこれをO(n)ビットに圧縮した.これにより,ヒトの全DNA配列2つのMUMの計算がメモリ4GBのPC1台を用いて約6時間で計算できた.また,ヒトとマウスの間の共通部分については約24時間で計算できた.データベースからの知識発見のために,データベース中の複数の属性間の最適相関ルールを求める高速アルゴリズムを開発した.最適とは,支持率を固定した場合の最大確信度ルールまたは確信度を固定したときの最大支持率ルールを表す.従来手法では2値属性のみしか効率良く扱えなかったが,本研究の手法では数値属性に対して効率良く動作する.また,数値属性間の最適相関ルールを拡張し,様々な確信度に対する最適領域をピラミッド型の図形で表現する方法を提案し,その効率の良い計算法を提案した.これを最適ピラミッドによる相関ルール表現と呼ぶ.これを用いることでデータベースから抽出した知識を簡潔に表現することができ,過学習の回避もできる.また,ピラミッドを用いてデータの可視化を行うこともできる.
ゲ ノ ム デ ー タ ベ ー ス か ら の knowledge 発 see の た め の ア ル ゴ リ ズ ム と デ ー タ tectonic に masato す る を line っ た. ま ず, ゲ ノ ム match column デ ー タ ベ ー ス か ら の high-speed パ タ ン 検 cable の ア ル ゴ リ ズ ム と デ ー タ tectonic を open 発 し た. Index と し て は existing の 圧 shrink tail quit mating by い を た が, new し い ア ル ゴ リ ズ ム に よ り 従 to 30 times の の speed で の 検 cable が may に な っ た. Long time に, 2 つ の い ゲ ノ ム Match column の ア ラ イ ン メ ン ト を computing す る た め の gimmick で あ る, MUM (Maximal Unique Match) を column 挙 す る province ス ペ ー ス な ア ル ゴ リ ズ ム を open 発 し た. The sequence length is さをnとすると, and the existing technique is で さを O(n log N) ビ ッ ト の ス ペ ー ス が necessary で あ っ た が, this study で は こ れ を O (n) ビ ッ ト に 圧 shrinkage し た. こ れ に よ り, ヒ ト の DNA full column 2 つ の MUM の computing が メ モ リ 4 gb の PC1 を used い て で calculation about six time で き た. ま た, ヒ ト と マ ウ ス の の between common part に つ い て は about 24 で calculation time で き た. デ ー タ ベ ー ス か ら の knowledge 発 see の た め に, デ ー タ ベ ー ス の の plural の attribute in the optimal phase masato ル ー ル を o め る high-speed ア ル ゴ リ ズ ム を open 発 し た. Optimum と は を approval ratings of fixed し た occasions の maximum sure degree ル ー ル ま た は confidence level を fixed し た と き の biggest support ル ー ル す を table. 従 to technique で は 2 numerical attributes の み し か sharper rate good く Cha え な か っ た が, this study の gimmick で は the numerical attributes に し seaborne て sharper rate good く action す る. ま た, the numerical attributes between the optimal phase masato の ル ー ル を company, zhang し, others 々 な confidence level に す seaborne る optimum field を ピ ラ ミ ッ ド type の 図 performance form で す る method proposed を し, そ の を い の good working rate calculation method Case し た. こ れ を optimum ピ ラ ミ ッ ド に よ る phase masato ル ー ル performance と ぶ. こ れ を with い る こ と で デ ー タ ベ ー ス か ら spare し た knowledge を concise に performance す る こ と が で き, through learning の avoid も で き る. ま た, ピ ラ ミ ッ ド を with い て デ ー タ の visual line を う こ と も で き る.

项目成果

期刊论文数量(6)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Y.Morimoto, T.Fukuda, T.Tokuyama: "Algorithms for Finding Attribute Value Group for Binary Segmentation of Categorical Databases"IEEE Transactions on Knowledge and Data Engineering. Vol.14 No.6. 1269-1279 (2002)
Y.Morimoto、T.Fukuda、T.Tokuyama:“用于分类数据库二进制分割的属性值组查找算法”IEEE 知识与数据工程汇刊。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
W.K.Hon, K.Sadakane: "Space-economical Algorithms for Finding Maximal Unique Matches"Proceedings of Combinatorial Pattern Matching. LNCS 2373. 144-152 (2002)
W.K.Hon, K.Sadakane:“寻找最大唯一匹配的空间经济算法”组合模式匹配论文集。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
K.Sadakane: "Experimental Results on the Compressed Suffix Array for Human DNA"DIMACS Working Group Meeting on Data Compression in Networks and Applications. (2002)
K.Sadakane:“人类 DNA 压缩后缀数组的实验结果”网络和应用程序数据压缩 DIMACS 工作组会议。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
K.Sadakane: "Succinct Representations of lcp Information and Improvements in the Compressed Suffix Arrays"Proceedings of ACM-SIAM Symposium on Discrete Algorithms. 144-152 (2002)
K.Sadakane:“lcp 信息的简洁表示和压缩后缀数组的改进”ACM-SIAM 离散算法研讨会论文集。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
T.W.Lam, K.SADAKANE, W.K.Sung, S.M.Yiu: "A Space and Time Efficient Algorithm for Constructing Compressed Suffix Arrays"Proceedings of International Computing and Combinatorics Conference. LNCS2387. 401-410 (2002)
T.W.Lam、K.SADAKANE、W.K.Sung、S.M.Yiu:“构建压缩后缀数组的空间和时间高效算法”国际计算与组合学会议论文集。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

定兼 邦彦其他文献

秘匿接尾辞ソーティングとその応用
秘密后缀排序及其应用
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    神保 洸貴;定兼 邦彦
  • 通讯作者:
    定兼 邦彦
拡張型心筋症の発症機序
扩张型心肌病的发病机制
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    神保 洸貴;定兼 邦彦;野村征太郎
  • 通讯作者:
    野村征太郎
簡潔データ構造
简洁的数据结构
  • DOI:
  • 发表时间:
    2018
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Abou El Hassan W.H.;T. Watanabe and M. R Freeg;定兼 邦彦
  • 通讯作者:
    定兼 邦彦
”聴こえる”ことの未来 ~人工内耳から内耳再生まで~
“听觉”的未来~从人工耳蜗植入到耳蜗再生~
  • DOI:
  • 发表时间:
    2015
  • 期刊:
  • 影响因子:
    0
  • 作者:
    小池 敦;定兼 邦彦;伊藤壽一
  • 通讯作者:
    伊藤壽一
有限グラフ上の高速ランダムウォーク
有限图上的快速随机游走
  • DOI:
  • 发表时间:
    2008
  • 期刊:
  • 影响因子:
    0
  • 作者:
    野中 良哲;小野 廣隆;定兼 邦彦;山下 雅史
  • 通讯作者:
    山下 雅史

定兼 邦彦的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('定兼 邦彦', 18)}}的其他基金

圧縮秘匿計算による大規模データ処理
使用压缩秘密计算进行大规模数据处理
  • 批准号:
    21H04871
  • 财政年份:
    2021
  • 资助金额:
    $ 2.3万
  • 项目类别:
    Grant-in-Aid for Scientific Research (A)
Big Data Processing with Compressed Secure Computation
通过压缩安全计算进行大数据处理
  • 批准号:
    21H05052
  • 财政年份:
    2021
  • 资助金额:
    $ 2.3万
  • 项目类别:
    Grant-in-Aid for Scientific Research (S)
高速ネットワークのための文字列ストリーム処理アルゴリズム
高速网络的字符串流处理算法
  • 批准号:
    17700019
  • 财政年份:
    2005
  • 资助金额:
    $ 2.3万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
大量データ処理のための領域効率の良いアルゴリズム
用于处理大量数据的节省空间的算法
  • 批准号:
    16092222
  • 财政年份:
    2004
  • 资助金额:
    $ 2.3万
  • 项目类别:
    Grant-in-Aid for Scientific Research on Priority Areas
情報検索のためのコンパクトなデータ構造とその動的更新に関する研究
信息检索的紧凑数据结构及其动态更新研究
  • 批准号:
    15700002
  • 财政年份:
    2003
  • 资助金额:
    $ 2.3万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
大規模圧縮文書データベースの構築と高度な検索手法に関する研究
大规模压缩文档数据库构建及先进检索方法研究
  • 批准号:
    13780184
  • 财政年份:
    2001
  • 资助金额:
    $ 2.3万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)
大量の文字列データに対する圧縮と検索
压缩和搜索大量字符串数据
  • 批准号:
    99J09112
  • 财政年份:
    1999
  • 资助金额:
    $ 2.3万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows

相似海外基金

ヒト二倍体ゲノム配列を高効率・高精度にハプロタイプ別アセンブリする手法の開発
开发一种高效、精确的通过单倍型组装人类二倍体基因组序列的方法
  • 批准号:
    24K18091
  • 财政年份:
    2024
  • 资助金额:
    $ 2.3万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
深層生成モデルを用いた微生物ゲノム配列品質評価手法の開発
利用深度生成模型开发微生物基因组序列质量评估方法
  • 批准号:
    24K09613
  • 财政年份:
    2024
  • 资助金额:
    $ 2.3万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
系統特異的ゲノム配列に着目したヒレから四肢への形態進化研究
从鳍到四肢的形态进化研究,重点关注谱系特异性基因组序列
  • 批准号:
    22KJ0186
  • 财政年份:
    2023
  • 资助金额:
    $ 2.3万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
完全ゲノム配列によるコレラパンデミック変遷の新たな理解
通过完整基因组测序对霍乱大流行进化有了新的认识
  • 批准号:
    22K07059
  • 财政年份:
    2022
  • 资助金额:
    $ 2.3万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Cnm陽性S. mutansの全ゲノム配列に基づく新規治療法の開発
开发基于 Cnm 阳性变形链球菌全基因组序列的新型治疗方法
  • 批准号:
    21K16944
  • 财政年份:
    2021
  • 资助金额:
    $ 2.3万
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
全ゲノム配列を用いたトキソプラズマ分子疫学情報の解明と病原性関連遺伝子の同定
全基因组序列阐明弓形虫分子流行病学信息及致病相关基因鉴定
  • 批准号:
    19K07520
  • 财政年份:
    2019
  • 资助金额:
    $ 2.3万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
鳥類の共有派生形質を規定するゲノム配列とその機能の解明
阐明基因组序列及其定义鸟类共同衍生性状的功能
  • 批准号:
    14J07050
  • 财政年份:
    2014
  • 资助金额:
    $ 2.3万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
デハロバクターFTH1株の全ゲノム配列解析に基づくPCB脱ハロゲン化機構の解明
基于Dehalobacter FTH1菌株全基因组序列分析阐明PCB脱卤机制
  • 批准号:
    23810011
  • 财政年份:
    2011
  • 资助金额:
    $ 2.3万
  • 项目类别:
    Grant-in-Aid for Research Activity Start-up
全ゲノム配列に基づいた系統樹の作成ツールの開発
基于全基因组序列的系统发育树创建工具的开发
  • 批准号:
    21657061
  • 财政年份:
    2009
  • 资助金额:
    $ 2.3万
  • 项目类别:
    Grant-in-Aid for Challenging Exploratory Research
カオスダイナミクスを用いた離散最適化技法の開発 -ゲノム配列からのモチーフ抽出-
使用混沌动力学开发离散优化技术-从基因组序列中提取基序-
  • 批准号:
    08J06863
  • 财政年份:
    2008
  • 资助金额:
    $ 2.3万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了