SGER: Multi-Tier Indexing for Web Search Engines

SGER:网络搜索引擎的多层索引

基本信息

  • 批准号:
    0841275
  • 负责人:
  • 金额:
    $ 20万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2008
  • 资助国家:
    美国
  • 起止时间:
    2008-08-01 至 2010-07-31
  • 项目状态:
    已结题

项目摘要

This project is adapting prior work on federated search to create a more selective approach to searching web indexes that we call topic-partitioned indexing. Each subset (shard) of a topic-partitioned index covers specific content areas, so that only shards covering the query?s topic area(s) need to be searched. Our research is developing methods to efficiently assign documents to shards. Supervised and unsupervised techniques are used to match queries to shards. The result is a selective search that delivers similar accuracy as more exhaustive searches, but requires an order of magnitude less effort, thus yielding significant computational and financial savings. The project is using the Google/IBM cluster to crawl the web and perform the data cleansing and pre-processing necessary to develop a web dataset of 500 million to 1 billion documents to support the research. Additional effort is being devoted to producing a corpus that is useful for a broad range of research purposes. A project goal is to share the dataset with other researchers on the Google/IBM cluster, and eventually with a broader research community.The project will have three types of broad impact. The data centers of large web search companies are expensive and major consumers of electrical power, thus reducing their costs has significant financial and environmental benefits. Lower computational costs make it practical for academic researchers to conduct research on datasets that web search companies consider credible, thus increasing the impact of academic research. Finally, research datasets such ours typically have long life spans and are used for diverse research projects by scientists around the world.
该项目正在修改联合搜索方面的先前工作,以创建一种更具选择性的搜索Web索引的方法,我们称之为主题分区索引。主题分区索引的每个子集(分片)覆盖特定的内容区域,因此只需要搜索覆盖查询的分片?S主题区域(S)。我们的研究正在开发有效地将文档分配到分片的方法。使用监督和非监督技术将查询与碎片进行匹配。结果是选择性搜索提供了与更详尽的搜索类似的精确度,但需要的工作量少了一个数量级,从而产生了显著的计算和财务节省。该项目正在使用谷歌/IBM集群来爬行网络,并执行必要的数据清理和预处理,以开发一个包含5亿至10亿份文档的网络数据集,以支持这项研究。目前正在致力于建立一个对广泛研究目的有用的语料库。该项目的目标是与谷歌/IBM集群上的其他研究人员共享数据集,并最终与更广泛的研究社区共享。该项目将产生三种类型的广泛影响。大型网络搜索公司的数据中心价格昂贵,也是电力的主要消耗者,因此降低它们的成本具有显著的财务和环境效益。较低的计算成本使学术研究人员能够对网络搜索公司认为可信的数据集进行研究,从而增加了学术研究的影响。最后,像我们这样的研究数据集通常具有很长的寿命,并被世界各地的科学家用于各种研究项目。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Jamie Callan其他文献

Pruning long documents for distributed information retrieval
修剪长文档以进行分布式信息检索
  • DOI:
    10.1145/584792.584847
  • 发表时间:
    2002
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Jie Lu;Jamie Callan
  • 通讯作者:
    Jamie Callan
Language processing technologies for electronic rulemaking: a project highlight
用于电子规则制定的语言处理技术:项目亮点
  • DOI:
  • 发表时间:
    2005
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Stuart W. Shulman;E. Hovy;Jamie Callan;S. Zavestoski
  • 通讯作者:
    S. Zavestoski
Passage-retrieval evidence in document retrieval
  • DOI:
  • 发表时间:
    1994
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Jamie Callan
  • 通讯作者:
    Jamie Callan
Metric-based ontology learning
基于度量的本体学习
  • DOI:
    10.1145/1458484.1458486
  • 发表时间:
    2008
  • 期刊:
  • 影响因子:
    3
  • 作者:
    G. Yang;Jamie Callan
  • 通讯作者:
    Jamie Callan
An effective and efficient results merging strategy for multilingual information retrieval in federated search environments
联合搜索环境中多语言信息检索的有效且高效的结果合并策略
  • DOI:
    10.1007/s10791-007-9036-6
  • 发表时间:
    2007-11
  • 期刊:
  • 影响因子:
    2.8
  • 作者:
    Jamie Callan;Luo Si
  • 通讯作者:
    Luo Si

Jamie Callan的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Jamie Callan', 18)}}的其他基金

III: Small: Reliable and Generalizable Neural Search Engine Architectures
III:小:可靠且可推广的神经搜索引擎架构
  • 批准号:
    1815528
  • 财政年份:
    2018
  • 资助金额:
    $ 20万
  • 项目类别:
    Standard Grant
CRI: CI-SUSTAIN: Collaborative Research: Sustaining Lemur Project Resources for the Long-Term
CRI:CI-SUSTAIN:合作研究:长期维持狐猴项目资源
  • 批准号:
    1822975
  • 财政年份:
    2018
  • 资助金额:
    $ 20万
  • 项目类别:
    Standard Grant
III: Small: Using Knowledge Resources to Improve Information Retrieval
III:小:利用知识资源改进信息检索
  • 批准号:
    1422676
  • 财政年份:
    2014
  • 资助金额:
    $ 20万
  • 项目类别:
    Standard Grant
CI-EN-Collaborative Research: Supporting Research and Teaching for Next-Generation Search Engines in Lemur
CI-EN-协作研究:支持狐猴下一代搜索引擎的研究和教学
  • 批准号:
    1405045
  • 财政年份:
    2014
  • 资助金额:
    $ 20万
  • 项目类别:
    Standard Grant
III: Medium: Selective Search of Large-Scale Text Collections
III:媒介:大规模文本集合的选择性搜索
  • 批准号:
    1302206
  • 财政年份:
    2013
  • 资助金额:
    $ 20万
  • 项目类别:
    Standard Grant
III: Medium: Collaborative Research: Connecting the Ephemeral and Archival Information Networks
III:媒介:协作研究:连接临时和档案信息网络
  • 批准号:
    1160862
  • 财政年份:
    2012
  • 资助金额:
    $ 20万
  • 项目类别:
    Continuing Grant
CI-ADDO-EN: Collaborative Proposal: Supporting Web-Scale Experimentation Using the Lemur Toolkit
CI-ADDO-EN:协作提案:使用 Lemur 工具包支持网络规模实验
  • 批准号:
    0934358
  • 财政年份:
    2010
  • 资助金额:
    $ 20万
  • 项目类别:
    Continuing Grant
III: Small: Modeling and Predicting Term Mismatch for Full-Text Retrieval
III:小:全文检索的术语不匹配建模和预测
  • 批准号:
    1018317
  • 财政年份:
    2010
  • 资助金额:
    $ 20万
  • 项目类别:
    Standard Grant
DC: Small: An Integrated Architecture for Federated Search
DC:小型:联合搜索的集成架构
  • 批准号:
    0916553
  • 财政年份:
    2009
  • 资助金额:
    $ 20万
  • 项目类别:
    Standard Grant
Preservation and Access for ClueWeb09 Image Data
ClueWeb09 图像数据的保存和访问
  • 批准号:
    0948856
  • 财政年份:
    2009
  • 资助金额:
    $ 20万
  • 项目类别:
    Standard Grant

相似国自然基金

基于Multi-Pass Cell的高功率皮秒激光脉冲非线性压缩关键技术研究
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
Multi-decadeurbansubsidencemonitoringwithmulti-temporaryPStechnique
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    80 万元
  • 项目类别:
High-precision force-reflected bilateral teleoperation of multi-DOF hydraulic robotic manipulators
  • 批准号:
    52111530069
  • 批准年份:
    2021
  • 资助金额:
    10 万元
  • 项目类别:
    国际(地区)合作与交流项目
基于8色荧光标记的Multi-InDel复合检测体系在降解混合检材鉴定的应用研究
  • 批准号:
  • 批准年份:
    2021
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
大规模非确定图数据分析及其Multi-Accelerator并行系统架构研究
  • 批准号:
    62002350
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
3D multi-parameters CEST联合DKI对椎间盘退变机制中微环境微结构改变的定量研究
  • 批准号:
    82001782
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
高速Multi-bit/cycle SAR ADC性能优化理论研究
  • 批准号:
    62004023
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
基于multi-SNP标记及不拆分策略的复杂混合样本身份溯源研究
  • 批准号:
  • 批准年份:
    2020
  • 资助金额:
    56 万元
  • 项目类别:
    面上项目
大地电磁强噪音压制的Multi-RRMC技术及其在青藏高原东南缘—印支块体地壳流追踪中的应用
  • 批准号:
  • 批准年份:
    2020
  • 资助金额:
    万元
  • 项目类别:
    国际(地区)合作与交流项目

相似海外基金

Tier II Canada Research Chair in Multi-Messenger Astrophysics
加拿大二级多信使天体物理学研究主席
  • 批准号:
    CRC-2020-00166
  • 财政年份:
    2022
  • 资助金额:
    $ 20万
  • 项目类别:
    Canada Research Chairs
CISE-MSI: RCBP-ED: CNS: MBARKA: A Multi-tier Basic Architecture for fault-toleRant and K-secure IoT-based Autonomous campus monitoring systems
CISE-MSI:RCBP-ED:CNS:MBARKA:用于容错和 K-secure 基于物联网的自主校园监控系统的多层基本架构
  • 批准号:
    2219785
  • 财政年份:
    2022
  • 资助金额:
    $ 20万
  • 项目类别:
    Standard Grant
Track 2: Customized Multi-tier Assistance, Training, and Computational Help (MATCH) for End User ACCESS to CI
轨道 2:为最终用户访问 CI 提供定制的多层协助、培训和计算帮助 (MATCH)
  • 批准号:
    2138286
  • 财政年份:
    2022
  • 资助金额:
    $ 20万
  • 项目类别:
    Cooperative Agreement
Tier Ii Canada Research Chair In Multi-Messenger Astrophysics
加拿大二级多信使天体物理学研究主席
  • 批准号:
    CRC-2020-00166
  • 财政年份:
    2021
  • 资助金额:
    $ 20万
  • 项目类别:
    Canada Research Chairs
Tier II Canada Research Chair in Multi-Messenger Astrophysics
加拿大二级多信使天体物理学研究主席
  • 批准号:
    1000233145-2019
  • 财政年份:
    2020
  • 资助金额:
    $ 20万
  • 项目类别:
    Canada Research Chairs
Hardened Multi-tier IoT device Registration Platform
强化的多层物联网设备注册平台
  • 批准号:
    540752-2019
  • 财政年份:
    2019
  • 资助金额:
    $ 20万
  • 项目类别:
    University Undergraduate Student Research Awards
Targeted Infusion Project: Cybersecurity for Everybody - A Multi-Tier Approach to Cybersecurity Education, Training, and Awareness in the Undergraduate Curriculum
有针对性的注入项目:每个人的网络安全 - 本科课程中网络安全教育、培训和意识的多层方法
  • 批准号:
    1912284
  • 财政年份:
    2019
  • 资助金额:
    $ 20万
  • 项目类别:
    Standard Grant
Multi-tier wireless networking with massive MIMO**
具有大规模 MIMO 的多层无线网络**
  • 批准号:
    531236-2018
  • 财政年份:
    2018
  • 资助金额:
    $ 20万
  • 项目类别:
    Collaborative Research and Development Grants
CSR: Small: Collaborative Research: Multi-tier Service Architecture in IoT-Edge-Cloud-Paradigms
CSR:小型:协作研究:物联网-边缘-云-范式中的多层服务架构
  • 批准号:
    1812797
  • 财政年份:
    2018
  • 资助金额:
    $ 20万
  • 项目类别:
    Standard Grant
CSR: Small: Collaborative Research: Multi-tier Service Architecture in IoT-Edge-Cloud-Paradigms
CSR:小型:协作研究:物联网-边缘-云-范式中的多层服务架构
  • 批准号:
    1903136
  • 财政年份:
    2018
  • 资助金额:
    $ 20万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了