多维气候大数据存储与处理关键技术研究
结题报告
批准号:
61672312
项目类别:
面上项目
资助金额:
64.0 万元
负责人:
杨广文
依托单位:
学科分类:
F0204.计算机系统结构与硬件技术
结题年份:
2020
批准年份:
2016
项目状态:
已结题
项目参与者:
张诚、甘霖、徐世真、何东标、何聪辉、赵晟、靳梦瑶
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
客服二维码
微信扫码咨询
中文摘要
科学仪器设备的不断发展和研究方法的持续进步促使气候变化的研究步入了大数据时代,给科学研究自身以及数据的存储和处理都带来了巨大的挑战。项目面向实际需求,针对当前气候大数据中多维数组存储和处理所存在的查询效率低、索引开销大、导入转换时间长、空间占用多等不足,结合开源的Hadoop、Impala等分布式存储和处理框架,探究针对查询处理的多维数组的高效存储方法、多维数组数据集的自适应分布式索引技术、面向多维数组的SQL查询支持与优化等关键理论和技术,在此基础上,进一步探究系统的实现技术和评估方法,开发完成一个多维气候大数据的云存储和查询平台,并进行实际应用评估。通过上述工作,为科学研究领域大数据的存储和处理提供良好的参考和借鉴,推动大数据研究和应用的进一步发展乃至科研的进步。
英文摘要
With the rapid development of scientific instruments and advances of research methods, climate change study has stepped into the big data era, posing great challenge to the research itself as well as data storage and processing. Bearing in mind the requirements of climate change related research, this project aims to address such shortcoming of existing systems for multidimensional array storage and processing as low efficiency query processing, high overhead of data indexing, long time taken by data loading and transformation, high storage consumption, and so on. Based on open-source frameworks such as Hadoop and Impala, the project will study: 1) query-oriented high-efficiency storage method of multidimensional array, 2) adaptive and distributed indexing of multidimensional array data sets, and 3) ways to support efficient SQL query over multidimensional array data. Based on the results, the project will also investigate system implementation as well as evaluation issues, develop a cloud-based multidimensional climate data storage and query-processing platform, and evaluate it with real data and application. We think the work would be a good reference for big data storage and processing in scientific fields. Also it could further the research and application of big data or even make progress in science.
人类社会已经步入了大数据的时代,不断快速增长的数据给科学研究自身以及数据的存储和处理都带来了巨大的挑战。项目以气候大数据中多维数组存储和处理为出发点,针对当前科学计算应用中所存在的查询效率低、索引开销大、导入转换时间长、空间占用多等一般性问题展开研究,在照数据的高效存储、索引构建、高效计算以及系统构建与优化等方面取得了以下成果:.1)在数据的高效存储方面,结合开源的Hadoop和Hive,设计实现了面向多维科学数据的分布式存储与查询系统SciHive,解决了将多维数据高效映射成SQL关系数据表、存储空间压缩等技术难题,使得普通科研人员都可以非常方便的进行多维科学数据的大规模处理,真正实现了科学大数据处理的普及化;提出了基于异构副本的NoSQL数据存储方案uSQL,在保证数据安全和存储空间不变的前提下,能够获得多个数据库的性能优势,提⾼整个数据库查询的吞吐量。.2)在索引构建方面,在SciHive系统的基础上,为多维科学数据设计了一种可动态构建的自适应分布式索引;在uSQL的基础上,提出了支持多聚集索引的索引解决⽅案uIndex。通过这些工作,进一步降低了索引建立和使用的开销,提高了磁盘I/O的效率和数据库的吞吐量。.3)在高效计算方面,在神威·太湖之光平台上,针对排序操作,提出了基于并行划分的单核组和多核组快速排序并行化方案;针对AES算法,设计实现了向量化编程模型、核组间、核组内及指令并行优化策略。通过这些工作,充分发掘了SW26010处理器的性能,提高了计算效率。.4)在系统构建与优化方面,针对数据倾斜造成Hadoop运行性能下降的问题,提出了智能倾斜缓和及资源调度优化方案Skew--,减少了跨节点数据传输,进一步提升了系统性能;构建了遥感模型资源的云化管理原型系统,在线提供高效的遥感数据管理和处理服务。.项目成果为科学研究领域大数据的存储和处理提供了良好的参考和借鉴,有助于推动大数据研究和应用的进一步发展乃至科研的进步。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
Optimizing Convolutional Neural Networks on the Sunway TaihuLight Supercomputer
在神威·太湖之光超级计算机上优化卷积神经网络
DOI:10.1145/3177885
发表时间:2018
期刊:ACM Transactions on Architecture and Code Optimization
影响因子:1.6
作者:Zhao Wenlai;Fu Haohuan;Fang Jiarui;Zheng Weijie;Gan Lin;Yang Guangwen
通讯作者:Yang Guangwen
Translating novel HPC techniques into efficient geoscience solutions
将新颖的 HPC 技术转化为高效的地球科学解决方案
DOI:10.1016/j.jocs.2020.101212
发表时间:2020-09
期刊:Journal of Computational Science
影响因子:3.3
作者:Lin Gan;Haohuan Fu;Guangwen Yang
通讯作者:Guangwen Yang
A particle-filter framework for robust cryo-EM 3D reconstruction
用于稳健冷冻电镜 3D 重建的粒子滤波器框架
DOI:10.1038/s41592-018-0223-8
发表时间:2018-12-01
期刊:NATURE METHODS
影响因子:48
作者:Hu, Mingxu;Yu, Hongkun;Li, Xueming
通讯作者:Li, Xueming
Efficient AES implementation on Sunway TaihuLight supercomputer: A systematic approach
神威·太湖之光超级计算机上的高效 AES 实施:一种系统方法
DOI:10.1016/j.jpdc.2019.12.013
发表时间:2020-04
期刊:Journal of Parallel and Distributed Computing
影响因子:3.8
作者:Li;eng Li;Jiarui Fang;Jinlei Jiang;Lin Gan;Weijie Zheng;Haohuan Fu;Guangwen Yang
通讯作者:Guangwen Yang
Tuning a general purpose software cache library for TaihuLight's SW26010 processor
调整 TaihuLight SW26010 处理器的通用软件缓存库
DOI:10.1007/s42514-020-00031-y
发表时间:2020-06-01
期刊:CCF TRANSACTIONS ON HIGH PERFORMANCE COMPUTING
影响因子:0.9
作者:Duan, Xiaohui;Zhang, Meng;Yang, Guangwen
通讯作者:Yang, Guangwen
面向用户数据存储的云文件系统关键技术研究
  • 批准号:
    61073165
  • 项目类别:
    面上项目
  • 资助金额:
    36.0万元
  • 批准年份:
    2010
  • 负责人:
    杨广文
  • 依托单位:
基于结构化对等网络的全文搜索技术
  • 批准号:
    60573110
  • 项目类别:
    面上项目
  • 资助金额:
    25.0万元
  • 批准年份:
    2005
  • 负责人:
    杨广文
  • 依托单位:
面向信息集成的Grid技术研究
  • 批准号:
    60373005
  • 项目类别:
    面上项目
  • 资助金额:
    23.0万元
  • 批准年份:
    2003
  • 负责人:
    杨广文
  • 依托单位:
元计算系统资源管理与资源保护研究
  • 批准号:
    60173007
  • 项目类别:
    面上项目
  • 资助金额:
    18.0万元
  • 批准年份:
    2001
  • 负责人:
    杨广文
  • 依托单位:
国内基金
海外基金