AF: DC: Collaborative Research: Pattern Matching for Massive Data Sets

AF:DC:协作研究:海量数据集的模式匹配

基本信息

  • 批准号:
    1017623
  • 负责人:
  • 金额:
    $ 50万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2010
  • 资助国家:
    美国
  • 起止时间:
    2010-08-01 至 2014-07-31
  • 项目状态:
    已结题

项目摘要

Pattern matching is a fundamental research field with applications in domains such as biological sequence alignment, web search engines and network intrusion detection. Given a pattern P and a text string T, the central problem is to find occurrences of P in T. When data becomes massive, we cannot assume that text can be stored in RAM. Pattern matching problems must now be considered with more appropriate models like external memory model, cache-oblivious model, streaming models, MapReduce paradigm and multi-core models. In many cases, a blend of models or newer, more appropriate models need to be developed keeping the practical aspects of the application in sight.The focus of this project is to develop efficient search algorithms and indexes when a data set resides on disks, on network storage, or is accessible only as an online stream. The data must be efficiently searchable even though it may be in compressed format. The project considers traditional pattern matching problem, as well as variants such as (i) approximate matching -- where the pattern may not exactly match a substring in T, (ii) online matching -- where the pattern(s) are known in advance and text comes as a stream, and (iii) string retrieval -- where instead of finding all the occurrences, the focus is on retrieving high ranking documents which contain one or more occurences of the query pattern. Issues of I/O efficiency and space utilization are central to this project. This involves developing suitable massive data set models, deriving optimal theoretical bounds and implementing practical tools. Methodologies include combinatorial and randomized methods in pattern matching, succinct data structures, top-k query processing and I/O efficient indexes.The project will build new, solid theoretical foundations in pattern matching, with direct applications to fields like databases and information retrieval. It will significantly drive forward current state of the art in web search engine technology (by impacting the way inverted indexes are used) and genome sequence alignment tools (e.g., BLAST). Tools and software developed during this project will be widely distributed to the research community. Some components will be incorporated into undergraduate and graduate algorithms course curricula as implementation projects.
模式匹配是生物序列比对、网络搜索引擎和网络入侵检测等领域的基础研究领域。 给定一个模式P和一个文本串T,中心问题是找到P在T中的出现。 当数据变得庞大时,我们不能假设文本可以存储在RAM中。 模式匹配问题现在必须考虑更合适的模型,如外部内存模型,缓存无关模型,流模型,MapReduce范式和多核模型。 在许多情况下,需要开发混合模型或更新,更合适的模型,以保持应用程序的实际方面。本项目的重点是开发高效的搜索算法和索引,当数据集驻留在磁盘上,网络存储上,或只能作为在线流访问时。 即使数据可能是压缩格式的,也必须能够有效地搜索。 该项目考虑了传统的模式匹配问题,以及变体,如(i)近似匹配-其中模式可能不完全匹配T中的子串,(ii)在线匹配-其中模式是预先已知的,文本作为流出现,以及(iii)字符串检索-其中不是找到所有出现的情况,重点在于检索包含查询模式的一个或多个占位符的高排名文档。 I/O效率和空间利用率问题是该项目的核心。 这涉及开发合适的海量数据集模型,推导最佳理论界限和实施实用工具。 方法论包括模式匹配中的组合和随机方法、简洁的数据结构、top-k查询处理和I/O高效索引。该项目将为模式匹配建立新的坚实的理论基础,并直接应用于数据库和信息检索等领域。 它将大大推动当前网络搜索引擎技术(通过影响倒排索引的使用方式)和基因组序列比对工具(例如,BLAST)。 该项目期间开发的工具和软件将广泛分发给研究界。 一些组件将被纳入本科和研究生算法课程作为实施项目。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Rahul Shah其他文献

Faster compressed dictionary matching
更快的压缩字典匹配
  • DOI:
  • 发表时间:
    2013
  • 期刊:
  • 影响因子:
    1.1
  • 作者:
    W. Hon;Tsung;Rahul Shah;Sharma V. Thankachan;J. Vitter
  • 通讯作者:
    J. Vitter
Structural Pattern Matching - Succinctly
结构模式匹配 - 简洁
I/O-Efficient Compressed Text Indexes: From Theory to Practice
I/O 高效的压缩文本索引:从理论到实践
  • DOI:
    10.1109/dcc.2010.45
  • 发表时间:
    2010
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Sheng;W. Hon;Rahul Shah;J. Vitter
  • 通讯作者:
    J. Vitter
On position restricted substring searching in succinct space
简洁空间中的位置受限子串搜索
  • DOI:
    10.1016/j.jda.2012.09.002
  • 发表时间:
    2012
  • 期刊:
  • 影响因子:
    0
  • 作者:
    W. Hon;Rahul Shah;Sharma V. Thankachan;J. Vitter
  • 通讯作者:
    J. Vitter
Faster Compressed Top-k Document Retrieval
更快的压缩 Top-k 文档检索
  • DOI:
    10.1109/dcc.2013.42
  • 发表时间:
    2013
  • 期刊:
  • 影响因子:
    0
  • 作者:
    W. Hon;Sharma V. Thankachan;Rahul Shah;J. Vitter
  • 通讯作者:
    J. Vitter

Rahul Shah的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Rahul Shah', 18)}}的其他基金

EAGER:CCF:AF:Sublinear Data Structures for Approximate Queries
EAGER:CCF:AF:用于近似查询的次线性数据结构
  • 批准号:
    2137057
  • 财政年份:
    2021
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
International Research Fellowship Program: Laser-Based Femtosecond X-Ray Development and Application
国际研究奖学金计划:基于激光的飞秒X射线开发和应用
  • 批准号:
    0502281
  • 财政年份:
    2005
  • 资助金额:
    $ 50万
  • 项目类别:
    Fellowship

相似国自然基金

疟原虫感染诱导DC表达ATG5抑制特异性CD4+Th1细胞活化的机制研究
  • 批准号:
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
薯蓣丸通过肠道菌群调控DC介导的T细胞应答在NSCLC免疫治疗中的作用研究
  • 批准号:
    2025JJ90017
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
基于PSR反激式AC-DC变换器的高效率快充集成芯片关键技术研究
  • 批准号:
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
模拟禁食饮食通过瘤内P. goldsteinii代谢重编程调控CCR7+ DC细胞功能抑制肠癌进展的机制研究
  • 批准号:
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
DC诱导激活CD4+TRM分化维持在无佐剂新型铜绿假单胞菌纳米颗 粒疫苗免疫保护中的作用及机制研究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
YAP1/P53/Mieap信号通路介导的微线粒体自噬在低温机械灌注改善DC供肝质量中的作用及机制研究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0 万元
  • 项目类别:
    地区科学基金项目
基于BCG载药系统靶向抑制DC-SIGN阳性肿瘤相关巨噬细胞增强脾胱癌免疫治疗的应用及机制研究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0 万元
  • 项目类别:
    青年科学基金项目
忆阻负载DC-DC 变换器研究
  • 批准号:
    2024JJ7196
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
仿生DC疫苗膜囊泡装载抗结核药物用于结核病化疗协同免疫治疗研究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    15.0 万元
  • 项目类别:
    省市级项目
IL-25/DC/OX40L轴通过调控Tfh2细胞分化诱导嗜酸性鼻息肉局部IgE产生的作用和机制
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    15.0 万元
  • 项目类别:
    省市级项目

相似海外基金

RAPID: Collaborative Research: Multifaceted Data Collection on the Aftermath of the March 26, 2024 Francis Scott Key Bridge Collapse in the DC-Maryland-Virginia Area
RAPID:协作研究:2024 年 3 月 26 日 DC-马里兰-弗吉尼亚地区 Francis Scott Key 大桥倒塌事故后果的多方面数据收集
  • 批准号:
    2427233
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
RAPID: Collaborative Research: Multifaceted Data Collection on the Aftermath of the March 26, 2024 Francis Scott Key Bridge Collapse in the DC-Maryland-Virginia Area
RAPID:协作研究:2024 年 3 月 26 日 DC-马里兰-弗吉尼亚地区 Francis Scott Key 大桥倒塌事故后果的多方面数据收集
  • 批准号:
    2427232
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
RAPID: Collaborative Research: Multifaceted Data Collection on the Aftermath of the March 26, 2024 Francis Scott Key Bridge Collapse in the DC-Maryland-Virginia Area
RAPID:协作研究:2024 年 3 月 26 日 DC-马里兰-弗吉尼亚地区 Francis Scott Key 大桥倒塌事故后果的多方面数据收集
  • 批准号:
    2427231
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Collaborative Research: IRES Track I: U.S.-Denmark program for advanced reliability analysis of ac/dc converters with INNOVAtive conTrols in glObe-spanning supergRid (INNOVATOR)
合作研究:IRES Track I:美国-丹麦项目,用于对全球超级电网中具有创新控制的交流/直流转换器进行高级可靠性分析(创新者)
  • 批准号:
    2152933
  • 财政年份:
    2022
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Collaborative Research: IRES Track I: U.S.-Denmark program for advanced reliability analysis of ac/dc converters with INNOVAtive conTrols in glObe-spanning supergRid (INNOVATOR)
合作研究:IRES Track I:美国-丹麦项目,用于对全球超级电网中具有创新控制的交流/直流转换器进行高级可靠性分析(创新者)
  • 批准号:
    2152905
  • 财政年份:
    2022
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Collaborative Research: WORKSHOP: Improving Gender Equality in Legislative Studies; Washington, DC - May 2020
合作研究:研讨会:改善立法研究中的性别平等;
  • 批准号:
    1940304
  • 财政年份:
    2020
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Collaborative Research: Large-Signal Stability Analysis and Enhancement of Converter-Dominated DC Microgrid
合作研究:变流器主导的直流微电网的大信号稳定性分析与增强
  • 批准号:
    2034938
  • 财政年份:
    2020
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Collaborative Research: WORKSHOP: Improving Gender Equality in Legislative Studies; Washington, DC - May 2020
合作研究:研讨会:改善立法研究中的性别平等;
  • 批准号:
    1940313
  • 财政年份:
    2020
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Collaborative Research: WORKSHOP: Improving Gender Equality in Legislative Studies; Washington, DC - May 2020
合作研究:研讨会:改善立法研究中的性别平等;
  • 批准号:
    1940342
  • 财政年份:
    2020
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Collaborative Research: Large-Signal Stability Analysis and Enhancement of Converter-Dominated DC Microgrid
合作研究:变流器主导的直流微电网的大信号稳定性分析与增强
  • 批准号:
    2034812
  • 财政年份:
    2020
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了