Efficient log data compression and analytics system
高效的日志数据压缩和分析系统
基本信息
- 批准号:570524-2021
- 负责人:
- 金额:$ 17.46万
- 依托单位:
- 依托单位国家:加拿大
- 项目类别:Alliance Grants
- 财政年份:2022
- 资助国家:加拿大
- 起止时间:2022-01-01 至 2023-12-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
The pandemic has brought a furious growth of computer log data, i.e., the runtime data generated by computer systems. This is catalyzed by two trends. First, during the pandemic many activities are moved to online, hence there is an unprecedented growth of software services, which, in turn, generate an unprecedented amount of log data. In addition, software companies are increasingly relying on analysis of data to make data-driven decisions. They build large scale big data analytics systems that run hundreds of jobs per day. These data analytics systems end up generating even more log data. As a result, it is common for a company to generate Petabytes of log data per day, with 50% - 100% year-over-year growth.This unprecedented amount of log data creates a number of new challenges. First, conventional log analytics systems no longer scale to such large data sizes. In addition, managing such large data is extremely costly at every level, from storage cost, to network bandwidth, and to the cost of compute resources. This research proposes a novel system called CLP (Compressed Log Processor). CLP compresses the logs to unprecedented compression ratio, and more importantly, it allows one to search the compressed logs without decompression. The success of CLP will reduce the cost of log management and storage by over 40x, saving internet companies hundreds of millions of dollars per year. More importantly, it enables users to quickly search through Petabytes of logs efficiently, something that was not possible. The partnership with Uber will make CLP production-ready, and establish Canada as a leader in this emerging area of scalable and efficient log management. It will also result in increased employments of skilled software engineers in Canada, significant enhancements of the competitiveness of Canada's data center technology, and reduced emission of Canadian data centers.
大流行带来了计算机日志数据的迅猛增长,即,由计算机系统生成的运行时数据。这是由两种趋势催化的。首先,在疫情期间,许多活动都转移到网上,因此软件服务出现了前所未有的增长,这反过来又产生了前所未有的大量日志数据。此外,软件公司越来越依赖数据分析来做出数据驱动的决策。他们建立了大规模的大数据分析系统,每天运行数百个作业。这些数据分析系统最终会生成更多的日志数据。因此,公司每天生成PB级的日志数据是很常见的,并且每年增长50% - 100%。这种前所未有的日志数据量带来了许多新的挑战。首先,传统的日志分析系统不再扩展到如此大的数据大小。此外,管理如此庞大的数据在各个层面上都非常昂贵,从存储成本到网络带宽,再到计算资源成本。本研究提出一种新的系统称为CLP(压缩日志处理器)。CLP将日志压缩到前所未有的压缩比,更重要的是,它允许人们在不解压缩的情况下搜索压缩日志。CLP的成功将使日志管理和存储成本降低40倍以上,每年为互联网公司节省数亿美元。更重要的是,它使用户能够快速有效地搜索PB级的日志,这是不可能的。与Uber的合作将使CLP为生产做好准备,并使加拿大成为可扩展和高效日志管理这一新兴领域的领导者。它还将增加加拿大熟练软件工程师的就业机会,显著增强加拿大数据中心技术的竞争力,并减少加拿大数据中心的排放。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Yuan, DingD其他文献
Yuan, DingD的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
相似国自然基金
Landau-Ginzburg模型与Log结构
- 批准号:
- 批准年份:2022
- 资助金额:30 万元
- 项目类别:青年科学基金项目
LOG5b启动子的自然变异影响苹果砧木耐盐性的分子遗传机制研究
- 批准号:31901974
- 批准年份:2019
- 资助金额:24.0 万元
- 项目类别:青年科学基金项目
马氏过程的泛函不等式
- 批准号:11101040
- 批准年份:2011
- 资助金额:22.0 万元
- 项目类别:青年科学基金项目
一种基于小波子带相位信息的视觉目标检测技术
- 批准号:60602036
- 批准年份:2006
- 资助金额:27.0 万元
- 项目类别:青年科学基金项目
路径空间与环空间上随机分析若干专题研究
- 批准号:10601066
- 批准年份:2006
- 资助金额:12.0 万元
- 项目类别:青年科学基金项目
相似海外基金
Social applications of personal acitivity log data acquired with data portability right
通过数据可移植权获取的个人活动日志数据的社交应用
- 批准号:
23H01528 - 财政年份:2023
- 资助金额:
$ 17.46万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
Media Exposure and Job-related Outcomes under the Remote Work Environment: An Investigation Using Behavioral Log Data
远程工作环境下的媒体曝光和工作相关结果:使用行为日志数据的调查
- 批准号:
22K18538 - 财政年份:2022
- 资助金额:
$ 17.46万 - 项目类别:
Grant-in-Aid for Challenging Research (Exploratory)
Refined Capture-Recapture Methods for Surveilling Cancer Recurrence
用于监测癌症复发的精细捕获-再捕获方法
- 批准号:
10522710 - 财政年份:2022
- 资助金额:
$ 17.46万 - 项目类别:
Refined Capture-Recapture Methods for Surveilling Cancer Recurrence
用于监测癌症复发的精细捕获-再捕获方法
- 批准号:
10707088 - 财政年份:2022
- 资助金额:
$ 17.46万 - 项目类别:
The association between health indicators in the Health Japan 21 (the second term) and web log data
Health Japan 21(第二期)中的健康指标与网络日志数据之间的关联
- 批准号:
22K17549 - 财政年份:2022
- 资助金额:
$ 17.46万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
Learning support using log data in card operation-based programming learning support system
基于卡操作的编程学习支持系统中使用日志数据的学习支持
- 批准号:
22K02815 - 财政年份:2022
- 资助金额:
$ 17.46万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
End to End, Cold Chain Validation Using Sample Attached History Log
使用附加历史日志示例进行端到端冷链验证
- 批准号:
10547150 - 财政年份:2022
- 资助金额:
$ 17.46万 - 项目类别:
Development of Analysis Methods for Using Learning Log Data for Quality Assurance of Digital Textbooks
利用学习日志数据保证数字教科书质量的分析方法的开发
- 批准号:
22K18611 - 财政年份:2022
- 资助金额:
$ 17.46万 - 项目类别:
Grant-in-Aid for Challenging Research (Exploratory)
End to End, Cold Chain Validation Using Sample Attached History Log
使用附加历史日志示例进行端到端冷链验证
- 批准号:
10688091 - 财政年份:2022
- 资助金额:
$ 17.46万 - 项目类别:
Integrated Dataset Machine Learning with Distributed Acoustic Sensing (DAS) fiber optics: Predicting Well Log Data
集成数据集机器学习与分布式声学传感 (DAS) 光纤:预测测井数据
- 批准号:
565009-2021 - 财政年份:2021
- 资助金额:
$ 17.46万 - 项目类别:
Alexander Graham Bell Canada Graduate Scholarships - Master's