CRI: CI-SUSTAIN: Collaborative Research: Sustaining Lemur Project Resources for the Long-Term

CRI:CI-SUSTAIN:合作研究:长期维持狐猴项目资源

基本信息

  • 批准号:
    1822975
  • 负责人:
  • 金额:
    $ 62.13万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2018
  • 资助国家:
    美国
  • 起止时间:
    2018-09-01 至 2023-08-31
  • 项目状态:
    已结题

项目摘要

For more than a decade, the software, datasets, and online services developed and provided by the Lemur Project have supported and enabled a large body of academic and commercial research on search engines, information retrieval, and other areas of computer science that analyze and process human language. This project makes critical enhancements to Lemur Project infrastructure, operates the infrastructure for another three years, and positions it for long-term sustainability. As part of the enhancements, the Galago search engine is enhanced to provide stronger integration of neural networks and other machine learning methods. A new dataset, ClueWeb2020, is developed to replace the widely-used ClueWeb09 and ClueWeb12 datasets. These investments will support advanced research for the next decade. The advanced search capabilities developed for the project's open-source Indri and Galago search engines, which are widely used for research, are added to the open-source Lucene search engine, which is widely used by industry. New software applications are developed to simplify migration between Lemur Project search engines and Lucene. These investments improve the state-of-the-art of software important to industry and enable researchers to migrate research to more widely-used software. The Lemur Project's research infrastructure attracted a substantial research user community because it easily enables leading-edge research. These enhancements enable researchers in information retrieval and related areas to carry out a much broader range of experiments and to share their results. Research and industry development supported by the new Lemur Project software will create a new generation of more capable search engines for a variety of tasks.The project is organized around three types of activities: Sustaining software, sustaining datasets, and operation. The project achieves long-term software sustainability by adding support for Indri and Galago functionality and creating integration and migration paths with the open-source Lucene search engine, which has large user and volunteer-developer communities. Research done with Galago or Indri will thus be reproducible in Lucene and more accessible to Lucene's industry users. The project also extends the Galago Application Programming Interface to support the newest developments in neural network (deep learning) document ranking technologies, which now are being studied widely and expected in a state-of-the-art research system. It broadens the utility of Ranklib by supporting neural algorithms for better comparison with high quality learning to rank approaches, and broadens the utility of the Sifaka text mining application with support for additional document and machine learning formats. The older ClueWeb09 and ClueWeb12 datsets are superseded by a new ClueWeb2020 dataset that is designed to last a decade and support research on newer learning-to-rank and neural network (deep learning) ranking algorithms. The project maintains and operates the existing infrastructure, in the form of software maintenance and support; dataset licensing and distribution; and operation of online search services. The new Lemur Project infrastructure supports a broad range of Information Retrieval research, for example, research on retrieval models; how to train learned rankers; use of semi-structured knowledge bases; result diversification; query optimization; and distributed search. In particular, it greatly improves support for research on learned and neural (deep learning) ranking algorithms, which have become important research topics in recent years. The ClueWeb datasets are used by a broad human language technologies research community. This project makes enhancements that sustain this infrastructure for the research community for at least the next decade.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
十多年来,Lemur项目开发和提供的软件、数据集和在线服务支持了大量关于搜索引擎、信息检索和其他分析和处理人类语言的计算机科学领域的学术和商业研究,并使之成为可能。该项目对狐猴项目的基础设施进行了重大改进,使基础设施再运行三年,并使其具有长期可持续性。作为增强的一部分,Galago搜索引擎得到了增强,以提供更强的神经网络和其他机器学习方法的集成。开发了一个新的数据集ClueWeb2020,以取代广泛使用的ClueWeb09和ClueWeb12数据集。这些投资将支持未来十年的先进研究。为该项目的开源Indri和Galago搜索引擎开发的高级搜索功能被添加到广泛用于研究的开源Lucene搜索引擎中。开发了新的软件应用程序来简化Lemur项目搜索引擎和Lucene之间的迁移。这些投资提高了对工业很重要的软件的技术水平,并使研究人员能够将研究转移到更广泛使用的软件上。Lemur项目的研究基础设施吸引了大量的研究用户社区,因为它很容易实现前沿研究。这些改进使信息检索和相关领域的研究人员能够开展更广泛的实验并分享他们的结果。新的Lemur项目软件支持的研究和行业发展将为各种任务创造新一代更强大的搜索引擎。该项目围绕三种类型的活动进行组织:维护软件、维护数据集和运营。该项目通过增加对Indri和Galago功能的支持,并与开源的Lucene搜索引擎创建集成和迁移路径,实现了长期的软件可持续性,Lucene搜索引擎拥有大量用户和志愿者开发人员社区。因此,在Galago或Indri上完成的研究可以在Lucene中重现,并且更容易被Lucene的行业用户访问。该项目还扩展了Galago应用程序编程接口,以支持神经网络(深度学习)文档排序技术的最新发展,该技术目前正在广泛研究,并有望在最先进的研究系统中得到应用。它通过支持神经算法来更好地与高质量的学习排序方法进行比较,从而扩大了Ranklib的实用性,并且通过支持额外的文档和机器学习格式,扩大了Sifaka文本挖掘应用程序的实用性。旧的ClueWeb09和ClueWeb12数据集被新的ClueWeb2020数据集所取代,该数据集旨在持续十年,并支持更新的学习排名和神经网络(深度学习)排名算法的研究。该项目以软件维护和支持的形式维护和操作现有的基础设施;数据集许可和分发;以及在线搜索服务的运营。新的狐猴项目基础设施支持广泛的信息检索研究,例如检索模型研究;如何训练有经验的排名员;半结构化知识库的使用;结果多样化;查询优化;分布式搜索。特别是,它大大提高了对学习和神经(深度学习)排序算法的研究支持,这些算法近年来已成为重要的研究课题。ClueWeb数据集被广泛的人类语言技术研究社区所使用。该项目对基础设施进行了改进,使其至少在未来十年内为研究界提供支持。该奖项反映了美国国家科学基金会的法定使命,并通过使用基金会的知识价值和更广泛的影响审查标准进行评估,被认为值得支持。

项目成果

期刊论文数量(1)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
ClueWeb22: 10 Billion Web Documents with Rich Information
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Jamie Callan其他文献

Pruning long documents for distributed information retrieval
修剪长文档以进行分布式信息检索
  • DOI:
    10.1145/584792.584847
  • 发表时间:
    2002
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Jie Lu;Jamie Callan
  • 通讯作者:
    Jamie Callan
Language processing technologies for electronic rulemaking: a project highlight
用于电子规则制定的语言处理技术:项目亮点
  • DOI:
  • 发表时间:
    2005
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Stuart W. Shulman;E. Hovy;Jamie Callan;S. Zavestoski
  • 通讯作者:
    S. Zavestoski
Passage-retrieval evidence in document retrieval
  • DOI:
  • 发表时间:
    1994
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Jamie Callan
  • 通讯作者:
    Jamie Callan
Metric-based ontology learning
基于度量的本体学习
  • DOI:
    10.1145/1458484.1458486
  • 发表时间:
    2008
  • 期刊:
  • 影响因子:
    3
  • 作者:
    G. Yang;Jamie Callan
  • 通讯作者:
    Jamie Callan
An effective and efficient results merging strategy for multilingual information retrieval in federated search environments
联合搜索环境中多语言信息检索的有效且高效的结果合并策略
  • DOI:
    10.1007/s10791-007-9036-6
  • 发表时间:
    2007-11
  • 期刊:
  • 影响因子:
    2.8
  • 作者:
    Jamie Callan;Luo Si
  • 通讯作者:
    Luo Si

Jamie Callan的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Jamie Callan', 18)}}的其他基金

III: Small: Reliable and Generalizable Neural Search Engine Architectures
III:小:可靠且可推广的神经搜索引擎架构
  • 批准号:
    1815528
  • 财政年份:
    2018
  • 资助金额:
    $ 62.13万
  • 项目类别:
    Standard Grant
III: Small: Using Knowledge Resources to Improve Information Retrieval
III:小:利用知识资源改进信息检索
  • 批准号:
    1422676
  • 财政年份:
    2014
  • 资助金额:
    $ 62.13万
  • 项目类别:
    Standard Grant
CI-EN-Collaborative Research: Supporting Research and Teaching for Next-Generation Search Engines in Lemur
CI-EN-协作研究:支持狐猴下一代搜索引擎的研究和教学
  • 批准号:
    1405045
  • 财政年份:
    2014
  • 资助金额:
    $ 62.13万
  • 项目类别:
    Standard Grant
III: Medium: Selective Search of Large-Scale Text Collections
III:媒介:大规模文本集合的选择性搜索
  • 批准号:
    1302206
  • 财政年份:
    2013
  • 资助金额:
    $ 62.13万
  • 项目类别:
    Standard Grant
III: Medium: Collaborative Research: Connecting the Ephemeral and Archival Information Networks
III:媒介:协作研究:连接临时和档案信息网络
  • 批准号:
    1160862
  • 财政年份:
    2012
  • 资助金额:
    $ 62.13万
  • 项目类别:
    Continuing Grant
CI-ADDO-EN: Collaborative Proposal: Supporting Web-Scale Experimentation Using the Lemur Toolkit
CI-ADDO-EN:协作提案:使用 Lemur 工具包支持网络规模实验
  • 批准号:
    0934358
  • 财政年份:
    2010
  • 资助金额:
    $ 62.13万
  • 项目类别:
    Continuing Grant
III: Small: Modeling and Predicting Term Mismatch for Full-Text Retrieval
III:小:全文检索的术语不匹配建模和预测
  • 批准号:
    1018317
  • 财政年份:
    2010
  • 资助金额:
    $ 62.13万
  • 项目类别:
    Standard Grant
DC: Small: An Integrated Architecture for Federated Search
DC:小型:联合搜索的集成架构
  • 批准号:
    0916553
  • 财政年份:
    2009
  • 资助金额:
    $ 62.13万
  • 项目类别:
    Standard Grant
Preservation and Access for ClueWeb09 Image Data
ClueWeb09 图像数据的保存和访问
  • 批准号:
    0948856
  • 财政年份:
    2009
  • 资助金额:
    $ 62.13万
  • 项目类别:
    Standard Grant
SGER: Multi-Tier Indexing for Web Search Engines
SGER:网络搜索引擎的多层索引
  • 批准号:
    0841275
  • 财政年份:
    2008
  • 资助金额:
    $ 62.13万
  • 项目类别:
    Standard Grant

相似国自然基金

醒脑静多靶点调控PI3K/Akt通路抑制CI/RI氧化应激—基于网络药理学及体内、外实验研究
  • 批准号:
    2025JJ90117
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
基于“免疫-神经”网络探讨眼针活化CI/RI大鼠MC靶向H3R调节“免疫监视”的抗炎机制
  • 批准号:
    82374375
  • 批准年份:
    2023
  • 资助金额:
    51 万元
  • 项目类别:
    面上项目
ci-Eln促进亲本基因Eln介导的缺氧肺动脉平滑肌细胞增殖的机制研究
  • 批准号:
  • 批准年份:
    2021
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
通过单细胞转录组测序揭示Wolbachia诱导果蝇CI的分子机制
  • 批准号:
    32170497
  • 批准年份:
    2021
  • 资助金额:
    58 万元
  • 项目类别:
    面上项目
森林垂直分层LAI和CI时空变异特征、LiDAR遥感反演与验证研究
  • 批准号:
  • 批准年份:
    2021
  • 资助金额:
    59 万元
  • 项目类别:
    面上项目
CI 994对SLC25A46相关线粒体病的治疗及机制研究
  • 批准号:
    82001449
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
近邻星系中[CI]线作为新分子气体质量探针的观测研究
  • 批准号:
    12003070
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
lncRNA343/miR-509-3p/STC1轴在CI-AKI肾小管上皮细胞线粒体质量控制失衡中的作用与机制
  • 批准号:
    81873607
  • 批准年份:
    2018
  • 资助金额:
    57.0 万元
  • 项目类别:
    面上项目
α2肾上腺素受体活化促ESCRT-III膜聚集在肾CI/RI致肺程序性坏死中的机制研究
  • 批准号:
    81801900
  • 批准年份:
    2018
  • 资助金额:
    21.0 万元
  • 项目类别:
    青年科学基金项目
内共生菌引起棉叶螨的细胞质不亲和(CI)的分子机理研究
  • 批准号:
    31860508
  • 批准年份:
    2018
  • 资助金额:
    39.0 万元
  • 项目类别:
    地区科学基金项目

相似海外基金

CRI: CI-SUSTAIN: Racket on Alternative Platforms
CRI:CI-SUSTAIN:替代平台上的喧嚣
  • 批准号:
    1823244
  • 财政年份:
    2018
  • 资助金额:
    $ 62.13万
  • 项目类别:
    Continuing Grant
CRI: CI-SUSTAIN: Collaborative Research: Sustaining Lemur Project Resources for the Long-Term
CRI:CI-SUSTAIN:合作研究:长期维持狐猴项目资源
  • 批准号:
    1822986
  • 财政年份:
    2018
  • 资助金额:
    $ 62.13万
  • 项目类别:
    Standard Grant
CRI: CI-SUSTAIN: Collaborative Research: CiteSeerX: Toward Sustainable Support of Scholarly Big Data
CRI:CI-SUSTAIN:协作研究:CiteSeerX:迈向学术大数据的可持续支持
  • 批准号:
    1823288
  • 财政年份:
    2018
  • 资助金额:
    $ 62.13万
  • 项目类别:
    Standard Grant
CRI: CI-SUSTAIN: Collaborative Research: CiteSeerX: Toward Sustainable Support of Scholarly Big Data
CRI:CI-SUSTAIN:协作研究:CiteSeerX:迈向学术大数据的可持续支持
  • 批准号:
    1853919
  • 财政年份:
    2018
  • 资助金额:
    $ 62.13万
  • 项目类别:
    Standard Grant
CRI: CI-SUSTAIN: Collaborative Research: CiteSeerX: Toward Sustainable Support of Scholarly Big Data
CRI:CI-SUSTAIN:协作研究:CiteSeerX:迈向学术大数据的可持续支持
  • 批准号:
    1823292
  • 财政年份:
    2018
  • 资助金额:
    $ 62.13万
  • 项目类别:
    Standard Grant
Collaborative Research: CI-SUSTAIN: StarExec: Cross-Community Infrastructure for Logic Solving
协作研究:CI-SUSTAIN:StarExec:用于逻辑解决的跨社区基础设施
  • 批准号:
    1730419
  • 财政年份:
    2017
  • 资助金额:
    $ 62.13万
  • 项目类别:
    Standard Grant
CI-SUSTAIN: Stan for the Long Run
CI-SUSTAIN:长远发展
  • 批准号:
    1730414
  • 财政年份:
    2017
  • 资助金额:
    $ 62.13万
  • 项目类别:
    Standard Grant
CI-SUSTAIN: Sustainable Tools for Analysis and Research on Darknet Unsolicited Traffic (STARDUST).
CI-SUSTAIN:用于分析和研究暗网主动流量(STARDUST)的可持续工具。
  • 批准号:
    1730661
  • 财政年份:
    2017
  • 资助金额:
    $ 62.13万
  • 项目类别:
    Standard Grant
Collaborative Research: CI-SUSTAIN: National File System Trace Repository
合作研究:CI-SUSTAIN:国家文件系统跟踪存储库
  • 批准号:
    1730726
  • 财政年份:
    2017
  • 资助金额:
    $ 62.13万
  • 项目类别:
    Standard Grant
Collaborative Research: CI-SUSTAIN: National File System Trace Repository
合作研究:CI-SUSTAIN:国家文件系统跟踪存储库
  • 批准号:
    1729939
  • 财政年份:
    2017
  • 资助金额:
    $ 62.13万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了