Efficient Data Reduction and Summarization
高效的数据缩减和汇总
基本信息
- 批准号:0808864
- 负责人:
- 金额:$ 25万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Continuing Grant
- 财政年份:2008
- 资助国家:美国
- 起止时间:2008-09-01 至 2014-09-30
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
The ubiquitous phenomenon of massive data (including data streams) imposes considerable challenges in data visualization and exploratory data analysis. About 15 years ago, terabyte datasets were still considered `ridiculous.' However, modern datasets managed by Stanford Linear Acceleration Center (SLAC), NASA, NSA, etc. have reached the perabyte scale or larger. Corporations such as Amazon, Wal-Mart, Ebay, and search engine firms are also major generators and users of massive data. The general theme of data reduction and summarization has become an active and highly inter-disciplinary area of research. This project proposes to develop various approximation techniques, which generate a "fingerprint" or "sketch" of the massive data by transforming the original data. These `sketches' are reasonably small (hence easy to store) and can provide approximate answers which are usually good enough for practical purposes. This proposal concerns the fundamental problems of processing/transforming massive (possibly dynamic) data. In particular, it focuses on (A) developing systematic fundamental tools for effective data reduction and efficient data summarization; (B) applying these tools to improve numerical analysis, visualization, and exploratory data analysis. Two lines of theoretically sound techniques for data reduction and summarization will be developed and further improved: (1) the method of stable random projections (SRP), effective in heavy-tailed data; (2) the method of Conditional Random Sampling (CRS), mainly for sparse data. Concrete applications of SRP and CRS will be investigated. Widely-used basic numerical algorithms can be rewritten by taking advantage of SRP or CRS. Popular methods/tools for exploratory data analysis will also benefit considerably from the development of data reduction techniques.
海量数据(包括数据流)无处不在的现象给数据可视化和探索性数据分析带来了相当大的挑战。大约15年前,tb级的数据集还被认为是“荒谬的”。然而,由斯坦福线性加速中心(SLAC)、NASA、NSA等管理的现代数据集已经达到了兆位字节或更大的规模。亚马逊(Amazon)、沃尔玛(Wal-Mart)、Ebay和搜索引擎公司等公司也是海量数据的主要产生者和用户。数据简化和总结的总体主题已经成为一个活跃的和高度跨学科的研究领域。本项目拟开发各种近似技术,通过对原始数据的变换,生成海量数据的“指纹”或“草图”。这些“草图”相当小(因此易于存储),并且可以提供大致的答案,通常足以用于实际目的。这个建议涉及处理/转换大量(可能是动态的)数据的基本问题。特别是,它侧重于(A)开发系统的基本工具,用于有效的数据简化和高效的数据总结;(B)应用这些工具来改进数值分析、可视化和探索性数据分析。将发展和进一步改进两种理论上合理的数据简化和总结技术:(1)稳定随机预测(SRP)方法,在重尾数据中有效;(2)条件随机抽样(CRS)方法,主要针对稀疏数据。将研究SRP和CRS的具体应用。广泛使用的基本数值算法可以利用SRP或CRS进行重写。探索性数据分析的流行方法/工具也将大大受益于数据约简技术的发展。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Ping Li其他文献
A Cognitive Interpretation of Chinese Neologism Foxi
汉语新词“狐”的认知解释
- DOI:
10.35532/jahs.v1.008 - 发表时间:
2019 - 期刊:
- 影响因子:0
- 作者:
Ping Li - 通讯作者:
Ping Li
A monocular odometer for a quadrotor using a homography model and inertial cues
使用单应模型和惯性线索的四旋翼单目里程计
- DOI:
- 发表时间:
2015 - 期刊:
- 影响因子:0
- 作者:
Ping Li;M. Garratt;A. Lambert - 通讯作者:
A. Lambert
Compressed Sensing with Very Sparse Gaussian Random Projections
具有非常稀疏高斯随机投影的压缩感知
- DOI:
- 发表时间:
2014 - 期刊:
- 影响因子:0
- 作者:
Ping Li;Cun - 通讯作者:
Cun
Study on absorption and spectral properties of H2S in carboxylate protic ionic liquids with low viscosity
低粘度羧酸质子离子液体中H2S的吸收和光谱特性研究
- DOI:
10.1016/j.molliq.2018.07.011 - 发表时间:
2018-09 - 期刊:
- 影响因子:6
- 作者:
Tianxiang Zhao;Ping Li;Xi Feng;Xingbang Hu;Youting Wu - 通讯作者:
Youting Wu
Fe particles on the tops of carbon nanofibers immobilized on structured carbon microfibers for ammonia decomposition
固定在结构化碳微纤维上的碳纳米纤维顶部的铁颗粒用于氨分解
- DOI:
10.1016/j.cattod.2013.06.008 - 发表时间:
2013-11 - 期刊:
- 影响因子:5.3
- 作者:
Ping Li;Xinggui Zhou;De Chen;Weikang Yuan - 通讯作者:
Weikang Yuan
Ping Li的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Ping Li', 18)}}的其他基金
Collaborative Research: Study of A- and B-class dye-decolorizing peroxidases (DyPs): From molecular mechanisms to applications in dye removal and lignin degradation
合作研究:A 类和 B 类染料脱色过氧化物酶 (DyPs) 的研究:从分子机制到在染料去除和木质素降解中的应用
- 批准号:
1807532 - 财政年份:2018
- 资助金额:
$ 25万 - 项目类别:
Standard Grant
Efficient Data Reduction and Summarization
高效的数据缩减和汇总
- 批准号:
1444124 - 财政年份:2014
- 资助金额:
$ 25万 - 项目类别:
Continuing Grant
Neurocognitive Mechanisms of Second Language Learning: Role of Learning Context and Cognitive Functions
第二语言学习的神经认知机制:学习情境和认知功能的作用
- 批准号:
1338946 - 财政年份:2013
- 资助金额:
$ 25万 - 项目类别:
Standard Grant
III: Small: Probabilistic Hashing for Efficient Search Learning
III:小:用于高效搜索学习的概率哈希
- 批准号:
1360971 - 财政年份:2013
- 资助金额:
$ 25万 - 项目类别:
Continuing Grant
BIGDATA: Small: DA: A Random Projection Approach
大数据:小:DA:随机投影方法
- 批准号:
1419210 - 财政年份:2013
- 资助金额:
$ 25万 - 项目类别:
Standard Grant
III: Small: Probabilistic Hashing for Efficient Search Learning
III:小:用于高效搜索学习的概率哈希
- 批准号:
1319830 - 财政年份:2013
- 资助金额:
$ 25万 - 项目类别:
Continuing Grant
BIGDATA: Small: DA: A Random Projection Approach
大数据:小:DA:随机投影方法
- 批准号:
1250914 - 财政年份:2013
- 资助金额:
$ 25万 - 项目类别:
Standard Grant
EAGER: Preliminary Study of Hashing Algorithms for Large-Scale Learning
EAGER:大规模学习的哈希算法初步研究
- 批准号:
1249316 - 财政年份:2012
- 资助金额:
$ 25万 - 项目类别:
Standard Grant
Collaborative Research: Cross-Language Lexical Interaction
合作研究:跨语言词汇交互
- 批准号:
1057877 - 财政年份:2011
- 资助金额:
$ 25万 - 项目类别:
Standard Grant
RUI: Self-organization and the Acquisition, Representation, and Processing of Language
RUI:自组织和语言的习得、表示和处理
- 批准号:
0131829 - 财政年份:2003
- 资助金额:
$ 25万 - 项目类别:
Continuing Grant
相似国自然基金
Scalable Learning and Optimization: High-dimensional Models and Online Decision-Making Strategies for Big Data Analysis
- 批准号:
- 批准年份:2024
- 资助金额:万元
- 项目类别:合作创新研究团队
Data-driven Recommendation System Construction of an Online Medical Platform Based on the Fusion of Information
- 批准号:
- 批准年份:2024
- 资助金额:万元
- 项目类别:外国青年学者研究基金项目
Development of a Linear Stochastic Model for Wind Field Reconstruction from Limited Measurement Data
- 批准号:
- 批准年份:2020
- 资助金额:40 万元
- 项目类别:
基于Linked Open Data的Web服务语义互操作关键技术
- 批准号:61373035
- 批准年份:2013
- 资助金额:77.0 万元
- 项目类别:面上项目
Molecular Interaction Reconstruction of Rheumatoid Arthritis Therapies Using Clinical Data
- 批准号:31070748
- 批准年份:2010
- 资助金额:34.0 万元
- 项目类别:面上项目
高维数据的函数型数据(functional data)分析方法
- 批准号:11001084
- 批准年份:2010
- 资助金额:16.0 万元
- 项目类别:青年科学基金项目
染色体复制负调控因子datA在细胞周期中的作用
- 批准号:31060015
- 批准年份:2010
- 资助金额:25.0 万元
- 项目类别:地区科学基金项目
Computational Methods for Analyzing Toponome Data
- 批准号:60601030
- 批准年份:2006
- 资助金额:17.0 万元
- 项目类别:青年科学基金项目
相似海外基金
CSR: Small: Latency-controlled Reduction of Data Center Expenses for Handling Bursty ML Inference Requests
CSR:小:通过延迟控制减少数据中心处理突发 ML 推理请求的费用
- 批准号:
2336886 - 财政年份:2024
- 资助金额:
$ 25万 - 项目类别:
Standard Grant
CAREER: A Highly Effective, Usable, Performant, Scalable Data Reduction Framework for HPC Systems and Applications
职业:适用于 HPC 系统和应用程序的高效、可用、高性能、可扩展的数据缩减框架
- 批准号:
2232120 - 财政年份:2023
- 资助金额:
$ 25万 - 项目类别:
Standard Grant
Thermal noise reduction in next-generation cryogenic gravitational wave telescopes through nonlinear physical model fusion data-driven methods
通过非线性物理模型融合数据驱动方法降低下一代低温引力波望远镜的热噪声
- 批准号:
23K03437 - 财政年份:2023
- 资助金额:
$ 25万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Pre-war Japan's medical care system and its effects on mortality reduction: an analysis of regional panel data
战前日本的医疗保健体系及其对降低死亡率的影响:区域面板数据分析
- 批准号:
23K01495 - 财政年份:2023
- 资助金额:
$ 25万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Using Large-Scale Network Data to Measure Social Returns and Improve Targeting of Crime-Reduction Interventions
使用大规模网络数据衡量社会回报并提高减少犯罪干预措施的针对性
- 批准号:
2242453 - 财政年份:2023
- 资助金额:
$ 25万 - 项目类别:
Standard Grant
CAREER: A Highly Effective, Usable, Performant, Scalable Data Reduction Framework for HPC Systems and Applications
职业:适用于 HPC 系统和应用程序的高效、可用、高性能、可扩展的数据缩减框架
- 批准号:
2312673 - 财政年份:2023
- 资助金额:
$ 25万 - 项目类别:
Standard Grant
Sensitivity analysis on Deep Learning (DL)-based dimensionality reduction methods of scRNA-seq data
基于深度学习 (DL) 的 scRNA-seq 数据降维方法的敏感性分析
- 批准号:
572254-2022 - 财政年份:2022
- 资助金额:
$ 25万 - 项目类别:
University Undergraduate Student Research Awards
A Novel Framework for Model Reduction and Data-Driven Modeling of Fluid-Structure System: Application to Flapping Dynamics
流固系统模型简化和数据驱动建模的新框架:在扑动动力学中的应用
- 批准号:
RGPIN-2019-05065 - 财政年份:2022
- 资助金额:
$ 25万 - 项目类别:
Discovery Grants Program - Individual
Data driven reduction strategies for net zero
数据驱动的净零减排策略
- 批准号:
10043424 - 财政年份:2022
- 资助金额:
$ 25万 - 项目类别:
Grant for R&D