SHF: Small: Hyperscaling Data Analytics for High-Performance Computers

SHF:小型:高性能计算机的超大规模数据分析

基本信息

  • 批准号:
    1816577
  • 负责人:
  • 金额:
    $ 46万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2018
  • 资助国家:
    美国
  • 起止时间:
    2018-07-01 至 2022-06-30
  • 项目状态:
    已结题

项目摘要

Data analytics extracts insights from massive datasets, often with the assistance of machine learning techniques. The goal of this project is to allow domain experts, including data scientists, to analyze massive datasets quickly using the most powerful supercomputing systems in the world. The problem is that state-of-the-art data processing algorithms that filter data, summarize results and combine information from different sources have inherent scalability bottlenecks. This project designs hyperscalable data processing algorithms that harness the unprecedented compute, storage and networking concurrency of a high-performance computer. This project also develops an open-source data processing engine to disseminate prototype implementations of these algorithms to the public. Another contribution is the creation of a massively parallel data processing module and associated teaching materials for undergraduate data science curricula, such as the diverse Data Analytics undergraduate major at The Ohio State University.The confluence of extreme compute parallelism, fast networking and growing memory capacities in the modern datacenter presents an opportunity to design a hyperscalable data processing kernel for warehouse-scale computers. This project sits at the intersection of data management and high-performance computing; it develops scalable join and aggregation algorithms, topology-conscious query planning and optimization techniques, and interference-aware data access methods for shared cold storage. This is accomplished by carefully overlapping communication and computation, identifying and avoiding unscalable all-to-all communication, accounting for network path congestion and variability in remote memory access latency, and judiciously using inter-process coordination to accelerate data ingestion from a massively parallel shared file system. These research activities lay the intellectual foundation to make data analytics scalable and efficient in warehouse-scale computers.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
数据分析通常在机器学习技术的帮助下,从海量数据集中提取洞察力。该项目的目标是允许包括数据科学家在内的领域专家使用世界上最强大的超级计算系统快速分析海量数据集。问题是,过滤数据、汇总结果和组合来自不同来源的信息的最先进的数据处理算法存在固有的可扩展性瓶颈。该项目设计了超可伸缩数据处理算法,以利用高性能计算机前所未有的计算、存储和网络并发。该项目还开发了一个开源数据处理引擎,以向公众传播这些算法的原型实现。另一个贡献是为本科生数据科学课程创建了大规模并行数据处理模块和相关教材,例如俄亥俄州立大学多样化的数据分析本科专业。极端的计算并行性、快速的网络连接和现代数据中心不断增长的内存容量为设计仓库级计算机的超可伸缩数据处理内核提供了机会。该项目位于数据管理和高性能计算的交汇点;它开发了可扩展的连接和聚合算法、拓扑敏感的查询规划和优化技术,以及用于共享冷存储的干扰感知数据访问方法。这是通过仔细地重叠通信和计算、识别和避免不可伸缩的全对全通信、考虑网络路径拥塞和远程内存访问延迟的可变性、以及明智地使用进程间协调来加速从大规模并行共享文件系统获取数据来实现的。这些研究活动为使数据分析在仓库规模的计算机中可扩展和高效奠定了智力基础。该奖项反映了NSF的法定使命,并通过使用基金会的智力优势和更广泛的影响审查标准进行评估,被认为值得支持。

项目成果

期刊论文数量(18)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
ApproxJoin: Approximate Distributed Joins
  • DOI:
    10.1145/3267809.3267834
  • 发表时间:
    2018-10
  • 期刊:
  • 影响因子:
    0
  • 作者:
    D. Quoc;Istemi Ekin Akkus;Pramod Bhatotia;Spyros Blanas;Ruichuan Chen;C. Fetzer;T. Strufe
  • 通讯作者:
    D. Quoc;Istemi Ekin Akkus;Pramod Bhatotia;Spyros Blanas;Ruichuan Chen;C. Fetzer;T. Strufe
Beyond MPI: New Communication Interfaces for Database Systems and Data-Intensive Applications
超越 MPI:数据库系统和数据密集型应用程序的新通信接口
  • DOI:
    10.1145/3456859.3456862
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Liu, Feilong;Barthels, Claude;Blanas, Spyros;Kimura, Hideaki;Swart, Garret
  • 通讯作者:
    Swart, Garret
Characterizing I/O optimization opportunities for array-centric applications on HDFS
  • DOI:
    10.1109/hpec.2018.8547529
  • 发表时间:
    2018-09
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Donghe Kang;Vedang Patel;Kalyan Khandrika;Spyros Blanas;Yang Wang;S. Parthasarathy
  • 通讯作者:
    Donghe Kang;Vedang Patel;Kalyan Khandrika;Spyros Blanas;Yang Wang;S. Parthasarathy
Comparison of Array Management Library Performance - A Neuroscience Use Case
阵列管理库性能比较 - 神经科学用例
  • DOI:
  • 发表时间:
    2019
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Kang, Donghe;Rübel, Oliver;Byna, Suren;Blanas, Spyros
  • 通讯作者:
    Blanas, Spyros
Design and Evaluation of an RDMA-aware Data Shuffling Operator for Parallel Database Systems
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Spyros Blanas其他文献

In-Memory Transactions
Query Processing on Gaming Consoles
游戏机上的查询处理
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Wei Cui;Qianxi Zhang;Spyros Blanas;Jesús Camacho;Brandon Haynes;Yinan Li;Ravishankar Ramamurthy;Peng Cheng;Rathijit Sen;Matteo Interlandi
  • 通讯作者:
    Matteo Interlandi
Engineering Security and Performance with Cipherbase
使用 Cipherbase 进行工程安全和性能
  • DOI:
  • 发表时间:
    2012
  • 期刊:
  • 影响因子:
    0
  • 作者:
    A. Arasu;Spyros Blanas;Ken Eguro;Manas R. Joglekar;R. Kaushik;Donald Kossmann;Ravishankar Ramamurthy;P. Upadhyaya;R. Venkatesan
  • 通讯作者:
    R. Venkatesan
ApproxJoin
近似连接
GRaSP: generalized range search in peer-to-peer networks
GRaSP:对等网络中的广义范围搜索

Spyros Blanas的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Spyros Blanas', 18)}}的其他基金

SHF: EAGER: HI-HDFS - Holistic I/O optimizations for the Hadoop distributed filesystem
SHF:EAGER:HI-HDFS - Hadoop 分布式文件系统的整体 I/O 优化
  • 批准号:
    1747447
  • 财政年份:
    2017
  • 资助金额:
    $ 46万
  • 项目类别:
    Standard Grant
CRII: III: Declarative array processing for large-scale scientific analyses
CRII:III:用于大规模科学分析的声明性数组处理
  • 批准号:
    1464381
  • 财政年份:
    2015
  • 资助金额:
    $ 46万
  • 项目类别:
    Standard Grant

相似国自然基金

昼夜节律性small RNA在血斑形成时间推断中的法医学应用研究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
tRNA-derived small RNA上调YBX1/CCL5通路参与硼替佐米诱导慢性疼痛的机制研究
  • 批准号:
    n/a
  • 批准年份:
    2022
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
Small RNA调控I-F型CRISPR-Cas适应性免疫性的应答及分子机制
  • 批准号:
    32000033
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
Small RNAs调控解淀粉芽胞杆菌FZB42生防功能的机制研究
  • 批准号:
    31972324
  • 批准年份:
    2019
  • 资助金额:
    58.0 万元
  • 项目类别:
    面上项目
变异链球菌small RNAs连接LuxS密度感应与生物膜形成的机制研究
  • 批准号:
    81900988
  • 批准年份:
    2019
  • 资助金额:
    21.0 万元
  • 项目类别:
    青年科学基金项目
肠道细菌关键small RNAs在克罗恩病发生发展中的功能和作用机制
  • 批准号:
    31870821
  • 批准年份:
    2018
  • 资助金额:
    56.0 万元
  • 项目类别:
    面上项目
基于small RNA 测序技术解析鸽分泌鸽乳的分子机制
  • 批准号:
    31802058
  • 批准年份:
    2018
  • 资助金额:
    26.0 万元
  • 项目类别:
    青年科学基金项目
Small RNA介导的DNA甲基化调控的水稻草矮病毒致病机制
  • 批准号:
    31772128
  • 批准年份:
    2017
  • 资助金额:
    60.0 万元
  • 项目类别:
    面上项目
基于small RNA-seq的针灸治疗桥本甲状腺炎的免疫调控机制研究
  • 批准号:
    81704176
  • 批准年份:
    2017
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
水稻OsSGS3与OsHEN1调控small RNAs合成及其对抗病性的调节
  • 批准号:
    91640114
  • 批准年份:
    2016
  • 资助金额:
    85.0 万元
  • 项目类别:
    重大研究计划

相似海外基金

Powering Small Craft with a Novel Ammonia Engine
用新型氨发动机为小型船只提供动力
  • 批准号:
    10099896
  • 财政年份:
    2024
  • 资助金额:
    $ 46万
  • 项目类别:
    Collaborative R&D
"Small performances": investigating the typographic punches of John Baskerville (1707-75) through heritage science and practice-based research
“小型表演”:通过遗产科学和基于实践的研究调查约翰·巴斯克维尔(1707-75)的印刷拳头
  • 批准号:
    AH/X011747/1
  • 财政年份:
    2024
  • 资助金额:
    $ 46万
  • 项目类别:
    Research Grant
Fragment to small molecule hit discovery targeting Mycobacterium tuberculosis FtsZ
针对结核分枝杆菌 FtsZ 的小分子片段发现
  • 批准号:
    MR/Z503757/1
  • 财政年份:
    2024
  • 资助金额:
    $ 46万
  • 项目类别:
    Research Grant
Bacteriophage control of host cell DNA transactions by small ORF proteins
噬菌体通过小 ORF 蛋白控制宿主细胞 DNA 交易
  • 批准号:
    BB/Y004426/1
  • 财政年份:
    2024
  • 资助金额:
    $ 46万
  • 项目类别:
    Research Grant
Windows for the Small-Sized Telescope (SST) Cameras of the Cherenkov Telescope Array (CTA)
切伦科夫望远镜阵列 (CTA) 小型望远镜 (SST) 相机的窗口
  • 批准号:
    ST/Z000017/1
  • 财政年份:
    2024
  • 资助金额:
    $ 46万
  • 项目类别:
    Research Grant
CSR: Small: Leveraging Physical Side-Channels for Good
CSR:小:利用物理侧通道做好事
  • 批准号:
    2312089
  • 财政年份:
    2024
  • 资助金额:
    $ 46万
  • 项目类别:
    Standard Grant
CSR: Small: Multi-FPGA System for Real-time Fraud Detection with Large-scale Dynamic Graphs
CSR:小型:利用大规模动态图进行实时欺诈检测的多 FPGA 系统
  • 批准号:
    2317251
  • 财政年份:
    2024
  • 资助金额:
    $ 46万
  • 项目类别:
    Standard Grant
AF: Small: Problems in Algorithmic Game Theory for Online Markets
AF:小:在线市场的算法博弈论问题
  • 批准号:
    2332922
  • 财政年份:
    2024
  • 资助金额:
    $ 46万
  • 项目类别:
    Standard Grant
Collaborative Research: FET: Small: Algorithmic Self-Assembly with Crisscross Slats
合作研究:FET:小型:十字交叉板条的算法自组装
  • 批准号:
    2329908
  • 财政年份:
    2024
  • 资助金额:
    $ 46万
  • 项目类别:
    Standard Grant
NeTS: Small: ML-Driven Online Traffic Analysis at Multi-Terabit Line Rates
NeTS:小型:ML 驱动的多太比特线路速率在线流量分析
  • 批准号:
    2331111
  • 财政年份:
    2024
  • 资助金额:
    $ 46万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了