大规模动态后缀索引的高效率算法研究
批准号:
61872391
项目类别:
面上项目
资助金额:
63.0 万元
负责人:
农革
依托单位:
学科分类:
F0201.计算机科学的基础理论
结题年份:
2022
批准年份:
2018
项目状态:
已结题
项目参与者:
饶洋辉、乔海燕、徐文涛、劳斌、韩凌波、解静仪、陈浩宇、彭炯瑜、赵鑫
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
微信扫码咨询
中文摘要
随着现代信息和网络技术的快速发展,采集的多源异构数据规模迅速增大,有效管理和使用这些数据需要对其进行组织优化和预处理。索引是重要的预处理方法,广泛用于数据的处理和存储管理等领域。以后缀数组为核心的索引统称为SA索引,是全文搜索的重要数据结构。项目研发高效的大规模动态后缀索引算法,成果具有先进的理论和实际性能,可用于海量异构动态数据的在线全文搜索。围绕以下若干关键算法问题开展研究:1、共享内存SA构建并行算法;2、SSD的SA构建外存算法;3、线性时间的SA合并算法;4、同时构建和验证SA的算法;5、自适应的SA构建和合并算法;6、外存SA的模糊查找算法。预期成果:发表SCI/EI收录国际期刊论文6篇(CCF A类期刊论文3篇以上)和会议论文4篇,申请发明专利6个,登记软件著作版权4项;通用于信号、日志、代码和基因等异构动态数据的全文搜索原型系统。
英文摘要
Driven by the rapid development of modern information and network technologies, the amount of multi-source heterogeneous data is growing quickly, optimizing organization and pre-processing of the data are needed for the efficient management and use of data. Indexing is an important pre-processing method that is widely applied in the fields of data processing and storage management. An index built on a suffix array is usually termed as an SA index, it is a fundamental data structure for full-text search. This project researches efficient algorithms for massive dynamic suffix indices, these new algorithms are of advanced theoretic and practical performance and can be applied for online full-text search on massive heterogeneous data. In particular, the key algorithmic problems to be studied are: 1) Parallel algorithms for building an SA in shared internal memory; 2) Algorithms for building an SA in SSD external memory; 3) Algorithms for merging SAs in linear time; 4) Algorithms for building and checking an SA simultaneously; 5) Adaptive algorithms for building and merging SAs; 6) Algorithms for approximate search on SAs in external memory. The expected outcome includes: 6 international journal papers (not less than 3 papers on journals listed as CCF A) and 4 conference papers indexed by SCI/EI , 6 invention patent applications, 4 software copyright registrations; a full-text search prototype system for heterogeneous dynamic data of signals, logs, codes and genome.
以数据的后缀数组为核心的后缀索引是异构数据全文搜索的重要技术,构造后缀数组的关键任务是对数据的所有后缀进行排序,索引的构建和存储效率直接影响索引的可用性。项目研发高效的大规模动态后缀索引算法,成果具有先进的理论和实际性能,可用于海量异构动态数据的在线全文搜索。主要研究工作包括:(1)共享内存多核计算机上的并行后缀归纳排序算法;(2)多核计算机上用归纳排序方法同时构建和验证后缀数组;(3)外存计算模型上时间和空间高效的后缀排序算法;(4)多核计算机上节省空间的LZ77因子分解多线程并行算法;(5)支持大规模异构数据全文搜索的后缀索引系统;(6)以全文搜索系统增强HDFS用于海量小文件管理。取得以下研究成果:发表SCI/EI收录的国际学术期刊论文7篇、国际学术会议论文2篇;申请国家发明专利7项,已获得授权4项,公开3项;登记软件著作权4项;博士论文2篇、硕士论文4篇;研发了通用于信号、日志、代码和基因等异构动态数据的全文搜索系统、分布式海量小文件管理系统。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
Enhancing HDFS with a full-text search system for massive small files
通过针对海量小文件的全文搜索系统增强 HDFS
DOI:10.1007/s11227-020-03526-1
发表时间:2021-01
期刊:The Journal of Supercomputing
影响因子:--
作者:Wentao Xu;Xin Zhao;Bin Lao;Ge Nong
通讯作者:Ge Nong
Succinct parallel Lempel–Ziv factorization on a multicore computer
多核计算机上的简洁并行 Lempel-Ziv 分解
DOI:10.1007/s11227-021-04165-w
发表时间:2021-11
期刊:The Journal of Supercomputing
影响因子:--
作者:Ling Bo Han;Bin Lao;Ge Nong
通讯作者:Ge Nong
Scalable Suffix Sorting on a Multicore Machine
多核机器上的可扩展后缀排序
DOI:10.1109/tc.2020.2972546
发表时间:2020-09
期刊:IEEE Transactions on Computers
影响因子:3.7
作者:Jing Yi Xie;Ge Nong;Bin Lao;Wentao Xu
通讯作者:Wentao Xu
Succinct suffix sorting in external memory
外部存储器中的简洁后缀排序
DOI:10.1016/j.ipm.2020.102378
发表时间:2021
期刊:Information Processing & Management
影响因子:--
作者:Ling Bo Han;Yi Wu;Ge Nong
通讯作者:Ge Nong
A study for extracting keywords from data with deep learning and suffix array
利用深度学习和后缀数组从数据中提取关键词的研究
DOI:10.1007/s11042-021-11762-7
发表时间:2022-01
期刊:Multimedia Tools and Applications
影响因子:3.6
作者:Wentao Xu;Ge Nong
通讯作者:Ge Nong
高效率的稀疏后缀排序算法研究
- 批准号:--
- 项目类别:省市级项目
- 资助金额:15.0万元
- 批准年份:2024
- 负责人:农革
- 依托单位:
有限和无限阶后缀排序关键算法研究
- 批准号:60873056
- 项目类别:面上项目
- 资助金额:31.0万元
- 批准年份:2008
- 负责人:农革
- 依托单位:
国内基金
海外基金















{{item.name}}会员


