SI2-SSE: Scalable Big Data Clustering by Random Projection Hashing

SI2-SSE:通过随机投影哈希进行可扩展的大数据集群

基本信息

  • 批准号:
    1440420
  • 负责人:
  • 金额:
    $ 49.81万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2014
  • 资助国家:
    美国
  • 起止时间:
    2014-09-01 至 2019-08-31
  • 项目状态:
    已结题

项目摘要

This project plans to develop a distributed algorithm for secure clustering of high dimensional data sets. Fields in health and biology are significantly benefited by data clustering scalability. Bioinformatic problems such as Micro Array clustering, Protein-Protein interaction clustering, medical resource decision making, medical image processing, and clustering of epidemiological events all serve to benefit from larger dataset sizes. The algorithm under development, called Random Projection Hash or RPHash, utilizes aspects of locality sensitive hashing (LSH) and multi-probe random projection for computational scalability and linear achievable gains from parallel speed. Furthermore, RPHash provides data anonymization through destructive manipulation of the data preventing de-anonymization attacks beyond standard best practices database security methods. RPHash will be deployable on commercially available cloud resources running the Hadoop (MRv2) implementation of MapReduce. The exploitation of general purpose cloud processing solutions allows researchers to scale their processing needs using virtually limitless commercial processing resources.The RPHash algorithm uses various recent techniques in data mining along with a new approach toward achieving algorithmic scalability on distributed systems. The basic intuition of RPHash is to combine multi-probe random projection with discrete space quantization. Regions of high density are then regarded as centroid candidates. To follow common parameterized, k-means methods, the top k regions will be selected. The focus on a randomized, and thus non-deterministic, clustering algorithm is somewhat uncommon in computing, but common for ill-posed, combinatorially restrictive problems such as clustering and partitioning. Despite theoretical results showing that k-means has an exponential worst case complexity, many real world problems tend to fair much better under k-means and other similar algorithms.
该项目计划开发一种用于高维数据集安全聚类的分布式算法。健康和生物学领域从数据集群可伸缩性中受益匪浅。生物信息学问题,如微阵列聚类、蛋白质-蛋白质相互作用聚类、医疗资源决策、医学图像处理和流行病学事件聚类,都受益于更大的数据集大小。正在开发的算法称为随机投影散列或RPHash,利用位置敏感散列(LSH)和多探测随机投影的方面来实现计算可伸缩性和并行速度的线性增益。此外,RPHash通过对数据的破坏性操作提供数据匿名化,防止超越标准最佳实践数据库安全方法的反匿名化攻击。RPHash将可以部署在运行Hadoop(MRv2)MapReduce实现的商业云资源上。通用云处理解决方案的开发使研究人员能够利用几乎无限的商业处理资源来扩展他们的处理需求。RPHash算法使用了数据挖掘中的各种最新技术,并提供了一种在分布式系统上实现算法可伸缩性的新方法。RPHash的基本直觉是将多探头随机投影与离散空间量化相结合。密度较高的区域则被视为质心候选区域。为了遵循常见的参数化k-均值方法,将选择前k个区域。关注随机化的、因此不确定的聚类算法在计算中有些不常见,但对于不适定的、组合限制性的问题,如聚类和分区,这是很常见的。尽管理论结果表明k-Means算法具有指数级的最坏情况复杂性,但在k-Means和其他类似算法下,许多现实世界的问题往往会更好地解决。

项目成果

期刊论文数量(8)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Clustering Data in Secured, Distributed Datasets
  • DOI:
    10.1007/978-3-030-24311-1_40
  • 发表时间:
    2019-07
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Sayantan Dey;Lee Carraher;Anindya Moitra;P. Wilsey
  • 通讯作者:
    Sayantan Dey;Lee Carraher;Anindya Moitra;P. Wilsey
Persistent Homology on Streaming Data
流数据的持久同源性
Random Projection Clustering on Streaming Data
流数据上的随机投影聚类
Computation of persistent homology on streaming data using topological data summaries
使用拓扑数据摘要计算流数据上的持久同源性
  • DOI:
    10.1111/coin.12597
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    2.8
  • 作者:
    Moitra, Anindya;Malott, Nicholas O.;Wilsey, Philip A.
  • 通讯作者:
    Wilsey, Philip A.
streamingRPHash: Random Projection Clustering of High-Dimensional Data in a MapReduce Framework
StreamingRPHash:MapReduce 框架中高维数据的随机投影聚类
  • DOI:
    10.1109/cluster.2016.89
  • 发表时间:
    2016
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Franklin, Jacob;Wenke, Samuel;Quasem, Sadiq;Carraher, Lee A.;Wilsey, Philip A.
  • 通讯作者:
    Wilsey, Philip A.
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Philip Wilsey其他文献

Philip Wilsey的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Philip Wilsey', 18)}}的其他基金

III: Small: Partitioning Big Data for the High Performance Computation of Persistent Homology
III:小:对大数据进行分区以实现持久同调的高性能计算
  • 批准号:
    1909096
  • 财政年份:
    2019
  • 资助金额:
    $ 49.81万
  • 项目类别:
    Standard Grant
CSR: Small: Collaborative Research: Combining Static Analysis and Dynamic Run-time Optimization for Parallel Discrete Event Simulation in Many-Core Environments
CSR:小型:协作研究:结合静态分析和动态运行时优化,实现多核环境中的并行离散事件仿真
  • 批准号:
    0915337
  • 财政年份:
    2009
  • 资助金额:
    $ 49.81万
  • 项目类别:
    Standard Grant

相似国自然基金

化脓性链球菌分泌性酯酶Sse抑制LC3相关吞噬促其侵袭的机制研究
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
太阳能电池Cu2ZnSn(SSe)4/CdS界面过渡层结构模拟及缺陷态消除研究
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    55 万元
  • 项目类别:
    面上项目
掺杂实现Cu2ZnSn(SSe)4吸收层表层稳定弱n型特性的第一性原理研究
  • 批准号:
    12004100
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
基于SSE的航空信息系统信息安全保障评价指标体系的研究
  • 批准号:
    60776808
  • 批准年份:
    2007
  • 资助金额:
    19.0 万元
  • 项目类别:
    联合基金项目

相似海外基金

異常検知手法と大気ノイズ補正を併用したInSAR時系列による未知のSSE検出手法の確立
利用异常检测方法和大气噪声校正建立利用InSAR时间序列的未知SSE检测方法
  • 批准号:
    24K07168
  • 财政年份:
    2024
  • 资助金额:
    $ 49.81万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
A study on vibration theory for defect detection by acoustic excitation using SSE analysis
基于SSE分析的声激励缺陷检测振动理论研究
  • 批准号:
    23K03995
  • 财政年份:
    2023
  • 资助金额:
    $ 49.81万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Study on defect detection by spatial spectral entropy (SSE) and healthy part evaluation for noncontact acoustic inspection
非接触声学检测中空间谱熵(SSE)缺陷检测和健康部位评估研究
  • 批准号:
    19K04414
  • 财政年份:
    2019
  • 资助金额:
    $ 49.81万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Numerical simulations of earthquake and SSE triggering by dynamic stress changes
动态应力变化引发地震和SSE的数值模拟
  • 批准号:
    18K03775
  • 财政年份:
    2018
  • 资助金额:
    $ 49.81万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
NSCI: SI2-SSE: An Extensible Model to Support Scalable Checkpoint-Restart for DMTCP Across Multiple Disciplines
NSCI:SI2-SSE:支持跨多个学科的 DMTCP 可扩展检查点重启的可扩展模型
  • 批准号:
    1740218
  • 财政年份:
    2018
  • 资助金额:
    $ 49.81万
  • 项目类别:
    Standard Grant
SI2-SSE: GenApp - A Transformative Generalized Application Cyberinfrastructure
SI2-SSE:GenApp - 变革性通用应用程序网络基础设施
  • 批准号:
    1912444
  • 财政年份:
    2018
  • 资助金额:
    $ 49.81万
  • 项目类别:
    Standard Grant
SI2-SSE: A parallel computing framework for large-scale real-space and real-time TDDFT excited-states calculations
SI2-SSE:大规模实空间和实时 TDDFT 激发态计算的并行计算框架
  • 批准号:
    1739423
  • 财政年份:
    2018
  • 资助金额:
    $ 49.81万
  • 项目类别:
    Standard Grant
Collaborative Research: SI2-SSE: WRENCH: A Simulation Workbench for Scientific Worflow Users, Developers, and Researchers
协作研究:SI2-SSE:WRENCH:面向科学 Worflow 用户、开发人员和研究人员的模拟工作台
  • 批准号:
    1642369
  • 财政年份:
    2017
  • 资助金额:
    $ 49.81万
  • 项目类别:
    Standard Grant
SI2-SSE: Entangled Quantum Dynamics in Closed and Open Systems, an Open Source Software Package for Quantum Simulator Development and Exploration of Synthetic Quantum Matter
SI2-SSE:封闭和开放系统中的纠缠量子动力学,用于量子模拟器开发和合成量子物质探索的开源软件包
  • 批准号:
    1740130
  • 财政年份:
    2017
  • 资助金额:
    $ 49.81万
  • 项目类别:
    Standard Grant
SI2-SSE: Highly Efficient and Scalable Software for Coarse-Grained Molecular Dynamics
SI2-SSE:高效且可扩展的粗粒度分子动力学软件
  • 批准号:
    1740211
  • 财政年份:
    2017
  • 资助金额:
    $ 49.81万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了