高效访问及快速处理BESIII海量数据的软件技术研究
结题报告
批准号:
11205180
项目类别:
青年科学基金项目
资助金额:
30.0 万元
负责人:
邓子艳
学科分类:
A2806.在线与离线数据处理
结题年份:
2015
批准年份:
2012
项目状态:
已结题
项目参与者:
刘怀民、孙永昭、马秋梅、刘北江、刘春秀、林韬
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
客服二维码
微信扫码咨询
中文摘要
北京正负电子对撞机重大改造工程(BEPCII)已建成并通过验收,升级后的北京谱仪III (BESIII)获取的原始数据正快速累积。通过BESIII离线软件系统(BOSS)将原始数据进行重建并产生相应的模拟数据,是开展BESIII物理分析的基础。随着数据量的增大,某些高优先级的数据处理任务耗时过长,使后续任务长时间等待,导致数据处理周期越来越长,CPU资源不能得到充分利用,物理分析工作不能及时展开。此外,数据量的快速增大使磁盘空间日益紧张,采用现有的数据访问方式,不仅造成磁盘空间的严重浪费,也限制了数据处理和物理分析的速度。本项目旨在开发一种新的事例级分布式软件系统,大幅提高离线数据处理的速度,缩短数据处理周期;同时,研究通过事例索引实现高效的事例导航,大幅节约磁盘空间,提高数据处理和物理分析的速度。本项目的顺利实施将帮助BESIII实验更快更好的取得物理成果。
英文摘要
BEPCII has been constructed and passed the acceptance. The upgraded detector BESIII accumulates massive raw data rapidly. The reconstruction of raw data and the following generation of Monte Carlo simulation data with BESIII Offline Software System (BOSS) are the basis of BESIII physics analysis. With the increase of data volume, the time consuming of some high priority data processing jobs causes overlong suspending of the succeeding jobs and inefficiently usage of CPU resources. The increased data processing cycle hinders the promptly carrying out of physics analysis work. In addition, the current data accessing module wastes disk space seriously and restricts the speed of data processing and physics analysis jobs while disk space becomes tight with data volume growth. This project aims to develop a new event-level distributed system which improves data processing speed and reduces data processing cycle, and an event index navigation system which saving disk space and speeding up data processing and physics analysis. The implementation of this project helps to achieve important physics results on BESIII experiment faster and better.
BESIII实验自2009年开始取数以来,积累了PB量级的原始数据,这对数据处理来说是个很大的挑战。本项目着重于提高数据处理和数据访问的效率,实现了分布式离线软件系统、基于TAG的数据分析软件和多输入流数据分析软件。.分布式离线软件系统能够对紧急任务进行快速处理,缩短等待时间,保证离线软件大规模数据处理和物理分析工作得以及时开展。采用主/从节点的工作模式,主节点负责磁盘I/O,从节点负责事例数据的处理,基于DIM开发的网络服务模块负责信息交换和数据传输。该系统用于离线数据重建和MDC刻度中,测试结果显示,利用该系统可大大节省作业运行时间,最多可减为正常运行方式的1/5。.基于TAG的数据分析软件能大大节省物理分析作业的时间。以往通常采用对DST文件进行分类存储,物理分析用户可根据需要选择相应的DST数据集进行物理分析。但是这样会造成DST文件的多份拷贝,是对磁盘空间的极大浪费。基于TAG的数据分析系统,通过TAG文件对每个事例进行描述,从而在分析过程中通过这些描述信息进行预筛选,感兴趣的事例才去读取DST事例。TAG文件为ROOT格式,每个DST文件对应于一个TAG文件。在TAG文件中包括6个整形量的情况下,TAG文件大小约为DST文件的1/700。测试结果显示,在同样的挑选条件下(例如nCharge=2),基于TAG的数据分析作业运行速度与直接读skimmed dst的分析作业一样,并且结果完全一致。.多输入流的数据分析软件用于在物理分析过程中同时读取DST event和raw event。以往数据重建的过程中,为了让用户可以同时获取DST event和 raw event,需要将重建后的数据保存为REC格式,但是由于REC文件过大,大批量数据重建过程中一般不保存REC文件,只存DST文件。少部分用户在数据分析过程中,需要读raw event时,则需要重新重建原始数据,生成一份REC文件。使用多输入流的数据分析软件,可以避免数据的重新重建,节省了大量的磁盘空间和CPU时间。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
Monte Carlo tuning for the BESIII time-of-flight system
BESIII 飞行时间系统的蒙特卡罗调整
DOI:10.1088/1674-1137/38/6/066204
发表时间:2014
期刊:Chinese Physics C
影响因子:3.6
作者:ZHANG Xiao-Jie, SUN Sheng-Sen, DENG Zi-Yan
通讯作者:ZHANG Xiao-Jie, SUN Sheng-Sen, DENG Zi-Yan
DOI:--
发表时间:2015
期刊:计算机应用研究
影响因子:--
作者:张刚;邓子艳;张晓梅
通讯作者:张晓梅
DOI:--
发表时间:2014
期刊:计算机工程
影响因子:--
作者:林蕾;邓子艳;张晓梅
通讯作者:张晓梅
通用型海量光学光子模拟方法及关键技术研究
JUNO实验中心探测器关键性能的模拟研究
国内基金
海外基金