大規模圧縮文書データベースの構築と高度な検索手法に関する研究
大规模压缩文档数据库构建及先进检索方法研究
基本信息
- 批准号:13780184
- 负责人:
- 金额:$ 1.34万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Young Scientists (B)
- 财政年份:2001
- 资助国家:日本
- 起止时间:2001 至 2002
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
大規模圧縮文書データベースのためのデータ構造と検索アルゴリズムの開発を行った.データ構造としては既存の圧縮接尾辞配列を基本として用いる.このときのパタンPの検索時間は0(|P| log n)時間(nはデータベース中の文書の長さ)であるが,これを高速化するために2つのデータ構造を提案した.1つ目は文字列の2つの接尾辞間の最長一致長を求めるためのものである.これを接尾辞配列と共に用いるとPの検索時間は0(|P|+log n)時間に改善される.データ構造のサイズは6n+o(n)ビットであり,n log nビット必要であった既存手法を大きく改善している.2つ目は,Pの検索が0(|P|)時間で行えるような圧縮接尾辞配列の新しい表現法と検索アルゴリズムである.なおアルファベットサイズはlog nの多項式であるとする.1つ目のデータ構造に関する論文で情報処理学会山下記念研究賞を受賞した.次に,圧縮接尾辞配列を構築する省スペースなアルゴリズムを開発した.既存手法では一旦接尾辞配列を作成し,それを圧縮しているため0(n log n)ビットの一時的なスペースが必要であった.本研究では0(n)ビットの一時的なスペースで動作する0(n |Σ| log n)時間(Σはアルファベット)のアルゴリズムを開発した.これを用いることで,人の全DNA配列に対する圧縮接尾辞配列をメモリ4GBのPCを用いて21時間で作成することが可能になった.既存手法では48GB以上のメモリが必要であった.さらに,文書検索で広く用いられている文書の順位付け法であるtf*idfスコアの計算のためのデータ構造を開発した.現在は転置ファイルと呼ばれるデータ構造が広く用いられているが,特定の文字列に対してしかスコアが計算できない.本研究のデータ構造では任意の検索文字列について準最適時間でスコアの計算ができ,そのサイズはデータベース中の文書サイズの約3倍と非常にコンパクトである.このデータ構造を用いることにより日本語などの単語の切れ目があいまいな文書の検索において検索精度を向上できる.この結果を情報科学技術フォーラムで発表し,FIT船井ベストペーパー賞を受賞した.
Large-scale 圧 shrinkage documents デ ー タ ベ ー ス の た め の デ ー タ tectonic と 検 cable ア ル ゴ リ ズ ム の open 発 を line っ た. デ ー タ tectonic と し て は existing の 圧 shrink tail quit mating column を basic と し て in い る. こ の と き の パ タ ン P の 検 cable time は 0 (P | | log (n) time n は デ ー タ ベ ー ス の documents in の さ) で あ る が, こ れ high speed を す る た め に 2 つ の デ ー タ structure proposed を し た. 1 つ は text columns の 2 つ の after long tail bowed longest の is consistent between め を o る た め の も の で あ る. こ れ を tail quit mating column と total に with い る と P の 検 cable time は 0 (| | P + log n) Time に improves される. Youdaoplaceholder2 に タ construct に サ ズ ズ タ 6n+o(n)ビットであ される,n log N ビ ッ ト necessary で あ っ た existing technique を big き く improve し て い る. 2 つ は, P の 検 cable が 0 (| | P) time line で え る よ う な 圧 shrink tail quit mating column の new し い performance method と 検 cable ア ル ゴ リ ズ ム で あ る. な お ア ル フ ァ ベ ッ ト サ イ ズ は log n <s:1> polynomial であるとする.1 であるとする objective <s:1> デ タ タ construction に related する paper で information processing society Yamashita Memorial Research Award を Award received た. Next, に, the compressed ending words are arranged in を to construct する province スペ スなア スなア ゴリズムを to ゴリズムを develop た. Existing methods で は resign once connect the tail with column を し consummate, そ れ を 圧 shrinkage し て い る た め 0 (n log n) ビ ッ ト の transient な ス ペ ー ス が necessary で あ っ た. This study で で 0(n)ビット スで the なスペ で スで スで action する0(n (n) time Σ は ア ル フ ァ ベ ッ ト) の ア ル ゴ リ ズ ム を open 発 し た. こ れ を with い る こ と で, people の DNA full column に す seaborne る 圧 shrink tail quit mating column を メ モ リ 4 gb の PC を with い て 21 time で す consummate る こ と が may に な っ た. More than existing methods で は 48 gb の メ モ リ が necessary で あ っ た. さ ら に, clerical 検 cable で hiroo く with い ら れ て い る documents の line to pay け method で あ る tf * idf ス コ ア の computing の た め の デ ー タ tectonic を open 発 し た. Now は planning buy フ ァ イ ル と shout ば れ る デ ー タ tectonic が hiroo く with い ら れ て い る が, specific の text columns に し seaborne て し か ス コ ア が computing で き な い. This study の デ ー タ tectonic で は arbitrary の 検 line text columns に つ い て between quasi most timely で ス コ ア の computing が で き, そ の サ イ ズ は デ ー タ ベ ー ス の documents in サ イ ズ の about 3 times と very に コ ン パ ク ト で あ る. こ の デ ー を タ structure with い る こ と に よ り Japanese な ど の 単 language の れ mesh cutting が あ い ま い な documents の 検 cable に お い て 検 cable Precision を upward で き る. こ の results を intelligence science and technology フ ォ ー ラ ム で 発 table し, FIT ship well ベ ス ト ペ ー パ ー reward を who し た.
项目成果
期刊论文数量(9)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
K. sadakane, H. Imai: "Fast Algorithms for k-Word Proximity Search"IEICE Trans. Fundamentals. Vol.E84-A No.9. 2311-2318 (2001)
K.sadakane、H.Imai:“k 词邻近搜索的快速算法”IEICE Trans。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
K.Sadakane: "Succinct Representations of lcp Information and Improvements in the Compressed Suffix Arrays"Proceedings of ACM-SIAM Symposium on Discrete Algorithms. 144-152 (2002)
K.Sadakane:“lcp 信息的简洁表示和压缩后缀数组的改进”ACM-SIAM 离散算法研讨会论文集。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
定兼邦彦: "柔軟な文書検索のためのコンパクトなデータ構造"情報技術レターズ. Vol.1. 7-8 (2002)
Kunihiko Sadakane:“用于灵活文档检索的紧凑数据结构”信息技术快报第 1 卷(2002 年)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
K.Sadakane: "Succinct Representations of Longest Prefix Information"情報処理学会研究報告. Vol.2002 No.29. 19-26 (2002)
K. Sadakane:“最长前缀信息的简洁表示”日本信息处理学会研究报告,2002 年第 29 卷(2002 年)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
K.sadakane, T.Sibuya: "Indexing Huge Genome Sequences for Solving Various Problems"Genome Informatics 2001(Universal Academy Press). No.12. 175-183 (2001)
K.sadakane、T.Sibuya:“索引巨大的基因组序列以解决各种问题”基因组信息学 2001(环球学院出版社)。
- DOI:
- 发表时间:
- 期刊:
- 影响因子:0
- 作者:
- 通讯作者:
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
定兼 邦彦其他文献
簡潔データ構造
简洁的数据结构
- DOI:
- 发表时间:
2018 - 期刊:
- 影响因子:0
- 作者:
Abou El Hassan W.H.;T. Watanabe and M. R Freeg;定兼 邦彦 - 通讯作者:
定兼 邦彦
定兼 邦彦的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('定兼 邦彦', 18)}}的其他基金
圧縮秘匿計算による大規模データ処理
使用压缩秘密计算进行大规模数据处理
- 批准号:
21H04871 - 财政年份:2021
- 资助金额:
$ 1.34万 - 项目类别:
Grant-in-Aid for Scientific Research (A)
Big Data Processing with Compressed Secure Computation
通过压缩安全计算进行大数据处理
- 批准号:
21H05052 - 财政年份:2021
- 资助金额:
$ 1.34万 - 项目类别:
Grant-in-Aid for Scientific Research (S)
高速ネットワークのための文字列ストリーム処理アルゴリズム
高速网络的字符串流处理算法
- 批准号:
17700019 - 财政年份:2005
- 资助金额:
$ 1.34万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
大量データ処理のための領域効率の良いアルゴリズム
用于处理大量数据的节省空间的算法
- 批准号:
16092222 - 财政年份:2004
- 资助金额:
$ 1.34万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas
情報検索のためのコンパクトなデータ構造とその動的更新に関する研究
信息检索的紧凑数据结构及其动态更新研究
- 批准号:
15700002 - 财政年份:2003
- 资助金额:
$ 1.34万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
ゲノム配列の高次圧縮・索引構築と高次幾何構造解析による知識発見
通过基因组序列的高阶压缩和索引构建以及高阶几何结构分析进行知识发现
- 批准号:
14015204 - 财政年份:2002
- 资助金额:
$ 1.34万 - 项目类别:
Grant-in-Aid for Scientific Research on Priority Areas
相似海外基金
超並列システム向け可逆データ圧縮法の提案と実用化
大规模并行系统可逆数据压缩方法的提出及实际应用
- 批准号:
23K21655 - 财政年份:2024
- 资助金额:
$ 1.34万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
無歪みデータ圧縮のための非対称符号化復号化方式(AEDS)に関する研究
无损数据压缩的非对称编解码方法(AEDS)研究
- 批准号:
24K07487 - 财政年份:2024
- 资助金额:
$ 1.34万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Collaborative Research: OAC Core: Topology-Aware Data Compression for Scientific Analysis and Visualization
合作研究:OAC 核心:用于科学分析和可视化的拓扑感知数据压缩
- 批准号:
2313124 - 财政年份:2023
- 资助金额:
$ 1.34万 - 项目类别:
Standard Grant
STTR Phase I: Machine Learning-Based Smart Data Compression Solutions for Structural Health Monitoring Sensors
STTR 第一阶段:用于结构健康监测传感器的基于机器学习的智能数据压缩解决方案
- 批准号:
2321884 - 财政年份:2023
- 资助金额:
$ 1.34万 - 项目类别:
Standard Grant
Compressed learning: theory and application of data compression technique that allows direct learning from optimally encoded data
压缩学习:数据压缩技术的理论和应用,允许从最佳编码数据中直接学习
- 批准号:
23K11233 - 财政年份:2023
- 资助金额:
$ 1.34万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Collaborative Research: OAC Core: Topology-Aware Data Compression for Scientific Analysis and Visualization
合作研究:OAC 核心:用于科学分析和可视化的拓扑感知数据压缩
- 批准号:
2313122 - 财政年份:2023
- 资助金额:
$ 1.34万 - 项目类别:
Standard Grant
Collaborative Research: OAC Core: Topology-Aware Data Compression for Scientific Analysis and Visualization
合作研究:OAC 核心:用于科学分析和可视化的拓扑感知数据压缩
- 批准号:
2313123 - 财政年份:2023
- 资助金额:
$ 1.34万 - 项目类别:
Standard Grant
感度と圧縮率を両立するデータ圧縮法の創出とその限界解明
创建同时实现灵敏度和压缩率的数据压缩方法,并阐明其局限性
- 批准号:
23K18466 - 财政年份:2023
- 资助金额:
$ 1.34万 - 项目类别:
Grant-in-Aid for Challenging Research (Exploratory)
Learning-Oriented Data Compression with Applications
面向学习的数据压缩及其应用
- 批准号:
RGPIN-2018-06768 - 财政年份:2022
- 资助金额:
$ 1.34万 - 项目类别:
Discovery Grants Program - Individual
Data compression for biomedical data analysis
用于生物医学数据分析的数据压缩
- 批准号:
DGDND-2022-03074 - 财政年份:2022
- 资助金额:
$ 1.34万 - 项目类别:
DND/NSERC Discovery Grant Supplement