III: Small: Index Sharding and Query Routing in Distributed Search Engines

III:小:分布式搜索引擎中的索引分片和查询路由

基本信息

  • 批准号:
    1718680
  • 负责人:
  • 金额:
    $ 50万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Continuing Grant
  • 财政年份:
    2017
  • 资助国家:
    美国
  • 起止时间:
    2017-08-01 至 2021-07-31
  • 项目状态:
    已结题

项目摘要

Large web search engines now receive billions of search requests per day that are evaluated over hundreds of billions of documents, leading to significant advertising revenue for the engines and many benefits for the overall economy. To process these queries with sub-second latencies, search engines deploy millions of computing cores housed in multiple large and geographically distributed data centers. This project will propose and investigate new techniques for partitioning and replicating document and index data across such systems, and for routing search requests to the data, with the goal of improving query processing efficiency and reducing hardware and energy costs. The work will result in a better understanding of the basic data partitioning and load balancing problems in such systems, and also has the potential to lead to significant economic benefits for existing and future search systems in terms of reduced hardware and energy costs. In addition, the project will support the training of a number of graduate and undergraduate students in search engine technology, a critical expertise sought by many employers. The planned research activities can be divided into two parts. The first part will focus on index sharding and tiering techniques, i.e., how to assign documents and index data to shards and tiers using clustering and index reordering techniques, and how to route queries to shards and tiers for efficient query processing. Here the goal is to minimize overall average query processing costs, without considering issues such as load balancing between machines, queuing delays, and resulting query latencies. The second part will focus on shard assignment and replication and on query routing, i.e., how to assign and replicate shards over machines, and how to adaptively route queries to shard replicas, in order to achieve increased query throughput across a range of realistic service level agreements (SLAs) on query latencies and result quality. Here the focus is on studying the basic load balancing problems arising in large search architectures, and on performing an end-to-end evaluation of the new index sharding and tiering techniques from the first part, to show that they can satisfy realistic latency and quality constraints with state-of-the-art load balancing methods.
大型网络搜索引擎现在每天接收数十亿个搜索请求,这些请求在数千亿个文档中进行评估,为引擎带来了可观的广告收入,并为整体经济带来了许多好处。为了以亚秒级的延迟处理这些查询,搜索引擎部署了数百万个位于多个大型地理分布数据中心的计算核心。该项目将提出和研究新技术,用于在这些系统中划分和复制文档和索引数据,并将搜索请求路由到数据,目的是提高查询处理效率,降低硬件和能源成本。这项工作将导致更好地了解在这样的系统中的基本数据划分和负载平衡问题,也有可能导致显着的经济效益,为现有的和未来的搜索系统在减少硬件和能源成本。此外,该项目还将支持对一些研究生和本科生进行搜索引擎技术方面的培训,这是许多雇主寻求的一项关键专业知识。计划中的研究活动可分为两个部分。第一部分将重点介绍索引分片和分层技术,即,如何使用聚类和索引重新排序技术将文档和索引数据分配到分片和层,以及如何将查询路由到分片和层以实现高效的查询处理。这里的目标是最小化总体平均查询处理成本,而不考虑机器之间的负载平衡、排队延迟和最终查询延迟等问题。第二部分将关注分片分配和复制以及查询路由,即,如何在机器上分配和复制分片,以及如何自适应地将查询路由到分片副本,以便在一系列关于查询延迟和结果质量的现实服务级别协议(SLA)上实现增加的查询吞吐量。这里的重点是研究大型搜索架构中出现的基本负载平衡问题,并对第一部分中的新索引分片和分层技术进行端到端评估,以表明它们可以满足现实的延迟和质量约束。

项目成果

期刊论文数量(13)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Compressing Inverted Indexes with Recursive Graph Bisection: A Reproducibility Study
  • DOI:
    10.1007/978-3-030-15712-8_22
  • 发表时间:
    2019-04
  • 期刊:
  • 影响因子:
    0
  • 作者:
    J. Mackenzie;Antonio Mallia;M. Petri;J. Culpepper;Torsten Suel
  • 通讯作者:
    J. Mackenzie;Antonio Mallia;M. Petri;J. Culpepper;Torsten Suel
PISA: Performant Indexes and Search for Academia
PISA:学术界表现指数和搜索
Exploiting Global Impact Ordering for Higher Throughput in Selective Search
  • DOI:
    10.1007/978-3-030-15719-7_2
  • 发表时间:
    2019-04
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Michal Siedlaczek;Juan Rodriguez;Torsten Suel
  • 通讯作者:
    Michal Siedlaczek;Juan Rodriguez;Torsten Suel
Delta Compression Techniques
An Experimental Study of Index Compression and DAAT Query Processing Methods
  • DOI:
    10.1007/978-3-030-15712-8_23
  • 发表时间:
    2019-04
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Antonio Mallia;Michal Siedlaczek;Torsten Suel
  • 通讯作者:
    Antonio Mallia;Michal Siedlaczek;Torsten Suel
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Torsten Suel其他文献

Permutation Routing and Sorting on Meshes with Row and Column Buses
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Torsten Suel
  • 通讯作者:
    Torsten Suel
On Randomized and Deterministic Schemes for Routing and Sorting on Fixed-Connection Networks
  • DOI:
    10.1007/3-540-64359-1_711
  • 发表时间:
    1998-03
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Torsten Suel
  • 通讯作者:
    Torsten Suel
Towards an Open and Highly Distributed Web Information Retrieval Architecture
走向开放和高度分布式的Web信息检索架构
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Torsten Suel;Chandana Mathur;Jo;Jiangong Zhang;A. Delis;M. Kharrazi;Xiaohui Long;K. Shanmugasundaram
  • 通讯作者:
    K. Shanmugasundaram
Approximate maximum weight branchings
近似最大重量分支
  • DOI:
  • 发表时间:
    2006
  • 期刊:
  • 影响因子:
    0.5
  • 作者:
    A. Bagchi;A. Bhargava;Torsten Suel
  • 通讯作者:
    Torsten Suel
Lower Bounds for Shellsort
希尔排序的下界
  • DOI:
    10.1006/jagm.1996.0825
  • 发表时间:
    1997
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Greg Plaxton;Torsten Suel;Greg Plaxton
  • 通讯作者:
    Greg Plaxton

Torsten Suel的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Torsten Suel', 18)}}的其他基金

III: Small: Efficient Query Processing in Large Search Engines
III:小型:大型搜索引擎中的高效查询处理
  • 批准号:
    1117829
  • 财政年份:
    2011
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
CAREER: Algorithmic Techniques for Massive Data Sets
职业:海量数据集的算法技术
  • 批准号:
    0093400
  • 财政年份:
    2001
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing grant

相似国自然基金

昼夜节律性small RNA在血斑形成时间推断中的法医学应用研究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
tRNA-derived small RNA上调YBX1/CCL5通路参与硼替佐米诱导慢性疼痛的机制研究
  • 批准号:
    n/a
  • 批准年份:
    2022
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
Small RNA调控I-F型CRISPR-Cas适应性免疫性的应答及分子机制
  • 批准号:
    32000033
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
Small RNAs调控解淀粉芽胞杆菌FZB42生防功能的机制研究
  • 批准号:
    31972324
  • 批准年份:
    2019
  • 资助金额:
    58.0 万元
  • 项目类别:
    面上项目
变异链球菌small RNAs连接LuxS密度感应与生物膜形成的机制研究
  • 批准号:
    81900988
  • 批准年份:
    2019
  • 资助金额:
    21.0 万元
  • 项目类别:
    青年科学基金项目
基于small RNA 测序技术解析鸽分泌鸽乳的分子机制
  • 批准号:
    31802058
  • 批准年份:
    2018
  • 资助金额:
    26.0 万元
  • 项目类别:
    青年科学基金项目
肠道细菌关键small RNAs在克罗恩病发生发展中的功能和作用机制
  • 批准号:
    31870821
  • 批准年份:
    2018
  • 资助金额:
    56.0 万元
  • 项目类别:
    面上项目
Small RNA介导的DNA甲基化调控的水稻草矮病毒致病机制
  • 批准号:
    31772128
  • 批准年份:
    2017
  • 资助金额:
    60.0 万元
  • 项目类别:
    面上项目
基于small RNA-seq的针灸治疗桥本甲状腺炎的免疫调控机制研究
  • 批准号:
    81704176
  • 批准年份:
    2017
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
水稻OsSGS3与OsHEN1调控small RNAs合成及其对抗病性的调节
  • 批准号:
    91640114
  • 批准年份:
    2016
  • 资助金额:
    85.0 万元
  • 项目类别:
    重大研究计划

相似海外基金

Powering Small Craft with a Novel Ammonia Engine
用新型氨发动机为小型船只提供动力
  • 批准号:
    10099896
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Collaborative R&D
"Small performances": investigating the typographic punches of John Baskerville (1707-75) through heritage science and practice-based research
“小型表演”:通过遗产科学和基于实践的研究调查约翰·巴斯克维尔(1707-75)的印刷拳头
  • 批准号:
    AH/X011747/1
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Research Grant
Fragment to small molecule hit discovery targeting Mycobacterium tuberculosis FtsZ
针对结核分枝杆菌 FtsZ 的小分子片段发现
  • 批准号:
    MR/Z503757/1
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Research Grant
Bacteriophage control of host cell DNA transactions by small ORF proteins
噬菌体通过小 ORF 蛋白控制宿主细胞 DNA 交易
  • 批准号:
    BB/Y004426/1
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Research Grant
Windows for the Small-Sized Telescope (SST) Cameras of the Cherenkov Telescope Array (CTA)
切伦科夫望远镜阵列 (CTA) 小型望远镜 (SST) 相机的窗口
  • 批准号:
    ST/Z000017/1
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Research Grant
CSR: Small: Leveraging Physical Side-Channels for Good
CSR:小:利用物理侧通道做好事
  • 批准号:
    2312089
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
CSR: Small: Multi-FPGA System for Real-time Fraud Detection with Large-scale Dynamic Graphs
CSR:小型:利用大规模动态图进行实时欺诈检测的多 FPGA 系统
  • 批准号:
    2317251
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
AF: Small: Problems in Algorithmic Game Theory for Online Markets
AF:小:在线市场的算法博弈论问题
  • 批准号:
    2332922
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Collaborative Research: FET: Small: Algorithmic Self-Assembly with Crisscross Slats
合作研究:FET:小型:十字交叉板条的算法自组装
  • 批准号:
    2329908
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
NeTS: Small: ML-Driven Online Traffic Analysis at Multi-Terabit Line Rates
NeTS:小型:ML 驱动的多太比特线路速率在线流量分析
  • 批准号:
    2331111
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了