Efficient Data Reduction and Summarization
高效的数据缩减和汇总
基本信息
- 批准号:1444124
- 负责人:
- 金额:$ 10.49万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Continuing Grant
- 财政年份:2014
- 资助国家:美国
- 起止时间:2014-04-16 至 2015-02-28
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
The ubiquitous phenomenon of massive data (including data streams) imposes considerable challenges in data visualization and exploratory data analysis. About 15 years ago, terabyte datasets were still considered `ridiculous.' However, modern datasets managed by Stanford Linear Acceleration Center (SLAC), NASA, NSA, etc. have reached the perabyte scale or larger. Corporations such as Amazon, Wal-Mart, Ebay, and search engine firms are also major generators and users of massive data. The general theme of data reduction and summarization has become an active and highly inter-disciplinary area of research. This project proposes to develop various approximation techniques, which generate a "fingerprint" or "sketch" of the massive data by transforming the original data. These `sketches' are reasonably small (hence easy to store) and can provide approximate answers which are usually good enough for practical purposes. This proposal concerns the fundamental problems of processing/transforming massive (possibly dynamic) data. In particular, it focuses on (A) developing systematic fundamental tools for effective data reduction and efficient data summarization; (B) applying these tools to improve numerical analysis, visualization, and exploratory data analysis. Two lines of theoretically sound techniques for data reduction and summarization will be developed and further improved: (1) the method of stable random projections (SRP), effective in heavy-tailed data; (2) the method of Conditional Random Sampling (CRS), mainly for sparse data. Concrete applications of SRP and CRS will be investigated. Widely-used basic numerical algorithms can be rewritten by taking advantage of SRP or CRS. Popular methods/tools for exploratory data analysis will also benefit considerably from the development of data reduction techniques.
无处不在的海量数据(包括数据流)现象给数据可视化和探索性数据分析带来了相当大的挑战。大约15年前,太字节数据集仍然被认为是“荒谬的”。然而,由斯坦福大学线性加速中心(SLAC)、NASA、NSA等管理的现代数据集已经达到了每字节或更大的规模。亚马逊、沃尔玛、Ebay和搜索引擎公司等公司也是大量数据的主要生成者和用户。数据简化和摘要的一般主题已经成为一个活跃的和高度跨学科的研究领域。该项目提出开发各种近似技术,通过转换原始数据来生成海量数据的“指纹”或“草图”。这些“草图”相当小(因此易于储存),可以提供近似的答案,这些答案对于实际目的来说通常足够好。这个建议涉及处理/转换大量(可能是动态的)数据的基本问题。特别是,它侧重于(A)开发有效的数据减少和有效的数据汇总系统的基本工具;(B)应用这些工具,以改善数值分析,可视化和探索性数据分析。 将开发和进一步改进两种理论上合理的数据简化和汇总技术:(1)稳定随机投影(SRP)方法,适用于厚尾数据;(2)条件随机采样(CRS)方法,主要适用于稀疏数据。将研究SRP和CRS的具体应用。广泛使用的基本数值算法可以利用SRP或CRS重写。探索性数据分析的流行方法/工具也将从数据简化技术的发展中受益匪浅。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Ping Li其他文献
Effect of CaO/Na2O on slag viscosity behavior under entrained flow gasification conditions
气流床气化条件下CaO/Na2O对炉渣粘度行为的影响
- DOI:
10.1016/j.fuproc.2018.10.002 - 发表时间:
2018 - 期刊:
- 影响因子:7.5
- 作者:
Zefeng Ge;Lingxue Kong;Jin Bai;Xiaodong Chen;Chong He;Huaizhu Li;Zongqing Bai;Ping Li;Wen Li - 通讯作者:
Wen Li
The psychological results of 438 patients with persisting GERD symptoms by Symptom Checklist 90-Revised (SCL-90-R) questionnaire
根据症状检查表 90 修订版 (SCL-90-R) 问卷对 438 名持续性 GERD 症状患者的心理结果
- DOI:
- 发表时间:
2018 - 期刊:
- 影响因子:1.6
- 作者:
Ping Li;Fei Wang;Guo;Lin Miao;Sihong You;Xia Chen - 通讯作者:
Xia Chen
BMI-adjusted prognosis of signet ring cell carcinoma in patients undergoing radical gastrectomy for gastric adenocarcinoma
接受根治性胃切除术治疗胃腺癌的印戒细胞癌的BMI调整预后
- DOI:
10.1016/j.asjsur.2020.03.023 - 发表时间:
2020 - 期刊:
- 影响因子:3.5
- 作者:
Jia-Bin Wang;Man-Qiang Lin;Jian-Wei Xie;Jian-Xian Lin;Jun Lu;Qi-Yue Chen;Long-Long Cao;Mi Lin;Ru-Hong Tu;Ping Li;Chao-Hui Zheng;Chang-Ming Huang - 通讯作者:
Chang-Ming Huang
Translational epidemiology: The powerful tool for precision cancer medicine
转化流行病学:精准癌症医学的强大工具
- DOI:
10.4103/jcrt.jcrt_276_18 - 发表时间:
2019-04 - 期刊:
- 影响因子:1.3
- 作者:
Zhenming Fu;Rui Zhang;Ping Li;Mingfang Jia - 通讯作者:
Mingfang Jia
Effect of Sairei‐to on irreversible glomerular sclerotic lesions in rats
Sairei-to 对大鼠不可逆性肾小球硬化病变的影响
- DOI:
- 发表时间:
1998 - 期刊:
- 影响因子:0
- 作者:
Ping Li;H. Kawachi;M. Orikasa;Zhen Sheng Shi;F. Shimizu - 通讯作者:
F. Shimizu
Ping Li的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Ping Li', 18)}}的其他基金
Collaborative Research: Study of A- and B-class dye-decolorizing peroxidases (DyPs): From molecular mechanisms to applications in dye removal and lignin degradation
合作研究:A 类和 B 类染料脱色过氧化物酶 (DyPs) 的研究:从分子机制到在染料去除和木质素降解中的应用
- 批准号:
1807532 - 财政年份:2018
- 资助金额:
$ 10.49万 - 项目类别:
Standard Grant
Neurocognitive Mechanisms of Second Language Learning: Role of Learning Context and Cognitive Functions
第二语言学习的神经认知机制:学习情境和认知功能的作用
- 批准号:
1338946 - 财政年份:2013
- 资助金额:
$ 10.49万 - 项目类别:
Standard Grant
III: Small: Probabilistic Hashing for Efficient Search Learning
III:小:用于高效搜索学习的概率哈希
- 批准号:
1360971 - 财政年份:2013
- 资助金额:
$ 10.49万 - 项目类别:
Continuing Grant
BIGDATA: Small: DA: A Random Projection Approach
大数据:小:DA:随机投影方法
- 批准号:
1419210 - 财政年份:2013
- 资助金额:
$ 10.49万 - 项目类别:
Standard Grant
III: Small: Probabilistic Hashing for Efficient Search Learning
III:小:用于高效搜索学习的概率哈希
- 批准号:
1319830 - 财政年份:2013
- 资助金额:
$ 10.49万 - 项目类别:
Continuing Grant
BIGDATA: Small: DA: A Random Projection Approach
大数据:小:DA:随机投影方法
- 批准号:
1250914 - 财政年份:2013
- 资助金额:
$ 10.49万 - 项目类别:
Standard Grant
EAGER: Preliminary Study of Hashing Algorithms for Large-Scale Learning
EAGER:大规模学习的哈希算法初步研究
- 批准号:
1249316 - 财政年份:2012
- 资助金额:
$ 10.49万 - 项目类别:
Standard Grant
Collaborative Research: Cross-Language Lexical Interaction
合作研究:跨语言词汇交互
- 批准号:
1057877 - 财政年份:2011
- 资助金额:
$ 10.49万 - 项目类别:
Standard Grant
Efficient Data Reduction and Summarization
高效的数据缩减和汇总
- 批准号:
0808864 - 财政年份:2008
- 资助金额:
$ 10.49万 - 项目类别:
Continuing Grant
RUI: Self-organization and the Acquisition, Representation, and Processing of Language
RUI:自组织和语言的习得、表示和处理
- 批准号:
0131829 - 财政年份:2003
- 资助金额:
$ 10.49万 - 项目类别:
Continuing Grant
相似国自然基金
Scalable Learning and Optimization: High-dimensional Models and Online Decision-Making Strategies for Big Data Analysis
- 批准号:
- 批准年份:2024
- 资助金额:万元
- 项目类别:合作创新研究团队
Data-driven Recommendation System Construction of an Online Medical Platform Based on the Fusion of Information
- 批准号:
- 批准年份:2024
- 资助金额:万元
- 项目类别:外国青年学者研究基金项目
Development of a Linear Stochastic Model for Wind Field Reconstruction from Limited Measurement Data
- 批准号:
- 批准年份:2020
- 资助金额:40 万元
- 项目类别:
基于Linked Open Data的Web服务语义互操作关键技术
- 批准号:61373035
- 批准年份:2013
- 资助金额:77.0 万元
- 项目类别:面上项目
Molecular Interaction Reconstruction of Rheumatoid Arthritis Therapies Using Clinical Data
- 批准号:31070748
- 批准年份:2010
- 资助金额:34.0 万元
- 项目类别:面上项目
高维数据的函数型数据(functional data)分析方法
- 批准号:11001084
- 批准年份:2010
- 资助金额:16.0 万元
- 项目类别:青年科学基金项目
染色体复制负调控因子datA在细胞周期中的作用
- 批准号:31060015
- 批准年份:2010
- 资助金额:25.0 万元
- 项目类别:地区科学基金项目
Computational Methods for Analyzing Toponome Data
- 批准号:60601030
- 批准年份:2006
- 资助金额:17.0 万元
- 项目类别:青年科学基金项目
相似海外基金
CSR: Small: Latency-controlled Reduction of Data Center Expenses for Handling Bursty ML Inference Requests
CSR:小:通过延迟控制减少数据中心处理突发 ML 推理请求的费用
- 批准号:
2336886 - 财政年份:2024
- 资助金额:
$ 10.49万 - 项目类别:
Standard Grant
CAREER: A Highly Effective, Usable, Performant, Scalable Data Reduction Framework for HPC Systems and Applications
职业:适用于 HPC 系统和应用程序的高效、可用、高性能、可扩展的数据缩减框架
- 批准号:
2232120 - 财政年份:2023
- 资助金额:
$ 10.49万 - 项目类别:
Standard Grant
Thermal noise reduction in next-generation cryogenic gravitational wave telescopes through nonlinear physical model fusion data-driven methods
通过非线性物理模型融合数据驱动方法降低下一代低温引力波望远镜的热噪声
- 批准号:
23K03437 - 财政年份:2023
- 资助金额:
$ 10.49万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Pre-war Japan's medical care system and its effects on mortality reduction: an analysis of regional panel data
战前日本的医疗保健体系及其对降低死亡率的影响:区域面板数据分析
- 批准号:
23K01495 - 财政年份:2023
- 资助金额:
$ 10.49万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Using Large-Scale Network Data to Measure Social Returns and Improve Targeting of Crime-Reduction Interventions
使用大规模网络数据衡量社会回报并提高减少犯罪干预措施的针对性
- 批准号:
2242453 - 财政年份:2023
- 资助金额:
$ 10.49万 - 项目类别:
Standard Grant
CAREER: A Highly Effective, Usable, Performant, Scalable Data Reduction Framework for HPC Systems and Applications
职业:适用于 HPC 系统和应用程序的高效、可用、高性能、可扩展的数据缩减框架
- 批准号:
2312673 - 财政年份:2023
- 资助金额:
$ 10.49万 - 项目类别:
Standard Grant
Sensitivity analysis on Deep Learning (DL)-based dimensionality reduction methods of scRNA-seq data
基于深度学习 (DL) 的 scRNA-seq 数据降维方法的敏感性分析
- 批准号:
572254-2022 - 财政年份:2022
- 资助金额:
$ 10.49万 - 项目类别:
University Undergraduate Student Research Awards
A Novel Framework for Model Reduction and Data-Driven Modeling of Fluid-Structure System: Application to Flapping Dynamics
流固系统模型简化和数据驱动建模的新框架:在扑动动力学中的应用
- 批准号:
RGPIN-2019-05065 - 财政年份:2022
- 资助金额:
$ 10.49万 - 项目类别:
Discovery Grants Program - Individual
Data driven reduction strategies for net zero
数据驱动的净零减排策略
- 批准号:
10043424 - 财政年份:2022
- 资助金额:
$ 10.49万 - 项目类别:
Grant for R&D