III: Small: Low-Cost Deduplication and Search for Versioned Datasets
III:小型:低成本重复数据删除和版本化数据集搜索
基本信息
- 批准号:1528041
- 负责人:
- 金额:$ 50万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Standard Grant
- 财政年份:2015
- 资助国家:美国
- 起止时间:2015-09-01 至 2020-08-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Organizations and companies often archive high volumes of versioned digital datasets. There are research challenges and opportunities for developing integrated archival and search support needed for data preservation, electronic discovery, and regulatory compliance. Since versioned datasets contain highly repetitive content, deduplication can reduce the storage demand by an order of magnitude or more; however such an optimization is resource-intensive. After deduplication, the structure of an inverted index for versioned data becomes complex and it is expensive to search relevant results. This project will study low-cost solutions for compact archiving and indexing and develop efficient algorithms and systems techniques for searching versioned datasets. It will also consider that the archived data can be stored in an untrusted server environment and investigate tradeoffs in efficiency and privacy-preservation for search. The developed solutions will bring significant computing and storage cost advantages for application users involving large-scale versioned data management and search. The developed software will be made public for research communities. The research effort will be integrated with an educational plan containing research mentoring, instruction improvement, and outreach activities.This project will be focused on studying key challenges and cost-sensitive technical aspects in integrated archival and search support for managing large versioned datasets. The main tasks include efficient software architecture and optimization for detecting duplicated content on a cloud cluster architecture, fast multi-phase search with a hybrid index structure to exploit content similarity and query characteristics, and an efficient privacy-preserving framework with top result ranking.
组织和公司经常存档大量版本化的数字数据集。在开发数据保存、电子发现和法规遵从性所需的集成档案和搜索支持方面,存在着研究挑战和机遇。由于版本化的数据集包含高度重复的内容,重复数据删除可以将存储需求减少一个数量级或更多;然而,这样的优化是资源密集型的。重复数据删除后,版本化数据的倒排索引结构变得复杂,查找相关结果的成本较高。该项目将研究紧凑归档和索引的低成本解决方案,并开发用于搜索版本化数据集的高效算法和系统技术。它还将考虑归档数据可以存储在不受信任的服务器环境中,并研究搜索效率和隐私保护方面的权衡。开发的解决方案将为涉及大规模版本数据管理和搜索的应用程序用户带来显著的计算和存储成本优势。开发的软件将向研究团体公开。这项研究工作将与一项教育计划相结合,其中包括研究指导、教学改进和外展活动。该项目将重点研究管理大型版本数据集的集成归档和搜索支持的关键挑战和成本敏感技术方面。主要任务包括高效的软件架构和优化,用于检测云集群架构上的重复内容,使用混合索引结构进行快速多阶段搜索,以利用内容相似度和查询特征,以及具有顶级结果排序的高效隐私保护框架。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Tao Yang其他文献
High Resolution Spectroscopic Measurement of 130Te2: Reference Lines near 444.4 nm for eEDM Experiment using PbF molecules
130Te2 的高分辨率光谱测量:使用 PbF 分子进行 eEDM 实验的 444.4 nm 附近的参考线
- DOI:
10.1016/j.saa.2021.120754 - 发表时间:
2021 - 期刊:
- 影响因子:0
- 作者:
Qinning Lin;Renjun Pang;Zesen Wang;Shunyong Hou;Hailing Wang;Jianping Yin;Tao Yang - 通讯作者:
Tao Yang
A novel negative selection algorithm based on subspace clustering
一种基于子空间聚类的负选择算法
- DOI:
- 发表时间:
2016 - 期刊:
- 影响因子:0
- 作者:
Liu ZhengJun;Wen Chen;Tao Li;Tao Yang - 通讯作者:
Tao Yang
An Improved Preparation of 4-Chloro-1H-indazole
4-氯-1H-吲唑制备方法的改进
- DOI:
- 发表时间:
2011 - 期刊:
- 影响因子:0
- 作者:
Ge Meng;Tao Yang;Yang Liu - 通讯作者:
Yang Liu
Optimal short-term outcomes in balloon pulmonary angioplasty: the minimum frequency of three sessions annually
球囊肺血管成形术的最佳短期结果:每年至少进行 3 次治疗的频率
- DOI:
10.1177/17534666241232521 - 发表时间:
2024 - 期刊:
- 影响因子:4.3
- 作者:
Xin Li;Tao Yang;Yi Zhang;Qing Zhao;Q. Zeng;Qi Jin;Anqi Duan;Zhi;Meixi Hu;Sicheng Zhang;Luyang Gao;Changming Xiong;Q. Luo;Zhihui Zhao;Zhihong Liu - 通讯作者:
Zhihong Liu
Distributed least squares solver for network linear equations
网络线性方程的分布式最小二乘求解器
- DOI:
10.1016/j.automatica.2019.108798 - 发表时间:
2018-09 - 期刊:
- 影响因子:6.4
- 作者:
Tao Yang;Jemin George;Jiahu Qin;Xinlei Yi;Junfeng Wu - 通讯作者:
Junfeng Wu
Tao Yang的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Tao Yang', 18)}}的其他基金
III: Small: Efficiency Optimization for Neural Document Ranking with Compact Representations
III:小:具有紧凑表示的神经文档排序的效率优化
- 批准号:
2225942 - 财政年份:2022
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
EAGER: Efficient Privacy-aware Document Search in the Cloud
EAGER:云端高效的隐私意识文档搜索
- 批准号:
2040146 - 财政年份:2020
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
III: Small: Parallel Similarity Comparison and Duplicate Detection with Incremental Computing
III:小:增量计算的并行相似性比较和重复检测
- 批准号:
1118106 - 财政年份:2011
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
SOFTWARE:"Cluster-based Runtime Support for Data-Intensive Online Applications"
软件:“数据密集型在线应用程序基于集群的运行时支持”
- 批准号:
0234346 - 财政年份:2003
- 资助金额:
$ 50万 - 项目类别:
Continuing Grant
ITR: Optimizing Execution of Parallel Programs on a Cluster of Shared Memory Machines
ITR:优化共享内存机器集群上并行程序的执行
- 批准号:
0082666 - 财政年份:2000
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
CAREER: Scheduling and Run-time Support for Parallel Irregular Computations
职业:并行不规则计算的调度和运行时支持
- 批准号:
9702640 - 财政年份:1997
- 资助金额:
$ 50万 - 项目类别:
Continuing Grant
U.S.-France Cooperative Research: Parameterized Task Graph Scheduling
美法合作研究:参数化任务图调度
- 批准号:
9513361 - 财政年份:1996
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
Research Initiation Award: Scheduling Task and Loop Parallelism on Message-Passing Architectures
研究启动奖:消息传递架构上的调度任务和循环并行性
- 批准号:
9409695 - 财政年份:1994
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
相似国自然基金
昼夜节律性small RNA在血斑形成时间推断中的法医学应用研究
- 批准号:
- 批准年份:2024
- 资助金额:0.0 万元
- 项目类别:省市级项目
tRNA-derived small RNA上调YBX1/CCL5通路参与硼替佐米诱导慢性疼痛的机制研究
- 批准号:n/a
- 批准年份:2022
- 资助金额:10.0 万元
- 项目类别:省市级项目
Small RNA调控I-F型CRISPR-Cas适应性免疫性的应答及分子机制
- 批准号:32000033
- 批准年份:2020
- 资助金额:24.0 万元
- 项目类别:青年科学基金项目
Small RNAs调控解淀粉芽胞杆菌FZB42生防功能的机制研究
- 批准号:31972324
- 批准年份:2019
- 资助金额:58.0 万元
- 项目类别:面上项目
变异链球菌small RNAs连接LuxS密度感应与生物膜形成的机制研究
- 批准号:81900988
- 批准年份:2019
- 资助金额:21.0 万元
- 项目类别:青年科学基金项目
肠道细菌关键small RNAs在克罗恩病发生发展中的功能和作用机制
- 批准号:31870821
- 批准年份:2018
- 资助金额:56.0 万元
- 项目类别:面上项目
基于small RNA 测序技术解析鸽分泌鸽乳的分子机制
- 批准号:31802058
- 批准年份:2018
- 资助金额:26.0 万元
- 项目类别:青年科学基金项目
Small RNA介导的DNA甲基化调控的水稻草矮病毒致病机制
- 批准号:31772128
- 批准年份:2017
- 资助金额:60.0 万元
- 项目类别:面上项目
基于small RNA-seq的针灸治疗桥本甲状腺炎的免疫调控机制研究
- 批准号:81704176
- 批准年份:2017
- 资助金额:20.0 万元
- 项目类别:青年科学基金项目
水稻OsSGS3与OsHEN1调控small RNAs合成及其对抗病性的调节
- 批准号:91640114
- 批准年份:2016
- 资助金额:85.0 万元
- 项目类别:重大研究计划
相似海外基金
CIF: Small: Learning Low-Dimensional Representations with Heteroscedastic Data Sources
CIF:小:使用异方差数据源学习低维表示
- 批准号:
2331590 - 财政年份:2024
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
A small steps, low-literacy, breakfast-focused dietary self-management intervention for adults with poorly controlled type 2 diabetes
针对控制不佳的 2 型糖尿病成人的小步骤、低识字率、以早餐为重点的饮食自我管理干预
- 批准号:
10417553 - 财政年份:2023
- 资助金额:
$ 50万 - 项目类别:
NeTS: Small: Low Latency Uplink Communications in Low Earth Orbit (LEO) Satellite Networks with Chirp Permutation Multiple Access (CPMA)
NeTS:小型:低地球轨道 (LEO) 卫星网络中采用线性调频排列多址 (CPMA) 的低延迟上行链路通信
- 批准号:
2312113 - 财政年份:2023
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
AF: Small: Low-Degree Methods for Optimization in Random Structures. Power and Limitations
AF:小:随机结构优化的低度方法。
- 批准号:
2233897 - 财政年份:2023
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
SHF: Small: Efficient, Deterministic and Formally Certified Methods for Solving Low-dimensional Linear Programs with Floating-point Precision
SHF:小型:用于以浮点精度求解低维线性程序的高效、确定性且经过正式认证的方法
- 批准号:
2312220 - 财政年份:2023
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
Low FODMAP food in irritable bowel syndrome and the involvement of small bowel bacterial overgrowth
低 FODMAP 食物与肠易激综合征及小肠细菌过度生长有关
- 批准号:
23K10824 - 财政年份:2023
- 资助金额:
$ 50万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
SHF: Small: Rethinking Virtualization at the Edge to Support Highly-efficient and Low-power Applications
SHF:小型:重新思考边缘虚拟化以支持高效和低功耗应用
- 批准号:
2210744 - 财政年份:2022
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
SBIR Phase II: Internal Combustion Engines as Small Scale Chemical Plants for Compact, Low Cost Gas-to-Liquids Systems to Reduce Methane Flaring
SBIR 第二阶段:内燃机作为小型化工厂,用于紧凑、低成本的气转液系统,以减少甲烷火炬
- 批准号:
2136751 - 财政年份:2022
- 资助金额:
$ 50万 - 项目类别:
Cooperative Agreement
Collaborative Research: SHF: Small: Exploiting Performance Correlations for Accurate and Low-cost Performance Testing for Serverless Computing
协作研究:SHF:小型:利用性能相关性对无服务器计算进行准确且低成本的性能测试
- 批准号:
2155096 - 财政年份:2022
- 资助金额:
$ 50万 - 项目类别:
Standard Grant
Design of future low Earth orbit small satellites by combining aerodynamic force and solar radiation pressure
气动力与太阳辐射压相结合的未来近地轨道小卫星设计
- 批准号:
22J13958 - 财政年份:2022
- 资助金额:
$ 50万 - 项目类别:
Grant-in-Aid for JSPS Fellows