海量光谱数据的HASH处理与分布式并行计算模型研究
结题报告
批准号:
U2031137
项目类别:
联合基金项目
资助金额:
43.0 万元
负责人:
郭炎鑫
学科分类:
数据、计算和信息提取等应用基础性研究
结题年份:
2023
批准年份:
2020
项目状态:
已结题
项目参与者:
郭炎鑫
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
客服二维码
微信扫码咨询
中文摘要
与日俱增的光谱数据对数据存储、表示和分析、处理模式提出了更高的要求,存储和计算性能瓶颈日益突出。HASH学习通过机器学习提取数据隐藏特征,表示成二进制码的形式,能显著减少数据存储和通信开销,有效提高学习效率。伪逆PIL技术的随机正交化特征映射的特点又可以进一步加速深度HASH学习模型训练过程。与此同时,以Hadoop和Spark为代表的分布式并行计算生态系统已经广泛应用在大规模图像处理、文字处理、数据挖掘中。本课题立足于LAMOST海量光谱数据,创新性地提出一种基于伪逆技术的深度HASH学习方法实现光谱数据的快速压缩和分类识别,同时深入研究分布是并行计算框架,探索一种全新的HASH学习和分布式并行计算相结合的通用的海量光谱数据分析的数据模型和计算模型,提高数据处理速度和数据产出效率。在此基础上构建稀有天体光谱数据挖掘和检索引擎,同时形成分级HASH编码存储的光谱数据“指纹库”。
英文摘要
More and more spectral data demands higher requirements for data storage, presentation and analysis, and processing mode. HASH learning can extract data hiding features through machine learning and express them in the form of binary code, which can significantly reduce data storage and communication overhead and effectively improve learning efficiency. The random orthogonalization feature mapping of pseudo - PIL technique can further accelerate the training process of deep HASH learning model. Meanwhile, the distributed parallel computing ecosystem represented by Hadoop and Spark has been widely used in large-scale graphics processing, word processing and data mining. This topic is based on the LAMOST mass spectral data, we innovatively put forward a kind of deep HASH learning method based on pseudo inverse for spectral data classification recognition, compression. Furthermore, we study distributed parallel computing framework, to explore a new combination of HASH learning and distributed parallel computing to form an universal mass spectral data model and computing model, which can greatly improve the efficiency of data processing speed and data output. On this basis, a rare celestial body spectral data mining and retrieval engine is built, and a spectral data "fingerprints library" is constructed by storing the hierarchical HASH codes.
专著列表
科研奖励列表
会议论文列表
专利列表
LAMOST数据流优化与光谱质量控制研究
  • 批准号:
    11703053
  • 项目类别:
    青年科学基金项目
  • 资助金额:
    29.0万元
  • 批准年份:
    2017
  • 负责人:
    郭炎鑫
  • 依托单位:
国内基金
海外基金