III: Small: Matching and Ranking via Proximity Graphs: Applications to Question Answering and Beyond

III:小:通过邻近图进行匹配和排名:在问答及其他领域的应用

基本信息

  • 批准号:
    1618159
  • 负责人:
  • 金额:
    $ 49.85万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2016
  • 资助国家:
    美国
  • 起止时间:
    2016-09-01 至 2019-08-31
  • 项目状态:
    已结题

项目摘要

This project will explore novel alternatives to a classic term-based full-text search, which is one of the most widely used computer algorithms. The current full-text search approaches heavily rely on memorizing which words and phrases appear in which text documents. The proposed research, in contrast, will examine methods that deviate from this well-studied path by using more generic similarity search methods. In doing so, the proposed research will pursue the following two objectives: (1) mitigating limitations of the existing approaches such as the mismatch between words that appear in queries and documents; and (2) developing approaches that permit an efficient separation of labor between data scientists and designers of retrieval algorithms. The latter would allow data scientists to focus on development of effective similarity models without worrying too much about low-level performance issues, while designers of retrieval algorithms and software engineers will be able to focus on development of more efficient and/or scalable approaches having fewer concerns about quality of results.The proposed research will investigate at least two scenarios where a term-based full-text search is replaced with a more generic high-accuracy k-nearest (k-NN) neighbor search. In the first scenario, it will develop a similarity function that goes beyond pure lexical matching and takes into account distributional similarity, similarity learned from a parallel (monolingual) corpus, and so on. In this scenario, the similarity function will be used as a black-box function coupled with a generic similarity search engine, implemented as a part of the Non-Metric Space Library (NMSLIB). Several search algorithms will be explored. One of the search approaches will rely on building a proximity graph (also known as a neighborhood graph), where nodes are objects and similar nodes are connected by edges. In the second scenario, the proposed research will build a pseudo inverted file over super terms. Super terms are (dense or sparse) vectorial representations of words appearing within a sliding window of small size. The super terms form a pseudo-vocabulary that can be indexed using a proximity graph (or any other efficient k-NN search method). At query time, the super terms will be extracted from the query and matched against the pseudo-vocabulary to obtain k nearest super terms (as well as documents where they occur). This approach will incorporate term proximity and term similarity (the latter will make the approach less affected by the vocabulary mismatch). Because preliminary experiments demonstrated that proximity graphs are not sufficiently accurate and efficient for the task in hand, the proposed research will also attempt to develop better variants of the proximity graphs methods. Should such an improvement fail, alternative search methods will also be explored. Experimental insights, algorithmic improvements, and new challenging datasets (resulting from the proposed work) will advance the state of the art in k-NN search, which is another widely used method. This, in turn, will benefit a variety of other NLP tasks such as classification, dictionary-based entity detection, and first story detection, which all heavily relying on the k-NN search. Additional project information will be made available at the project website: http://www.lti.cs.cmu.edu/PGraph
这个项目将探索传统的基于术语的全文搜索的新替代方案,这是最广泛使用的计算机算法之一。当前的全文搜索方法严重依赖于记住哪些单词和短语出现在哪些文本文档中。相比之下,拟议的研究将通过使用更通用的相似性搜索方法来研究偏离这一研究路径的方法。在此过程中,拟议的研究将追求以下两个目标:(1)减轻现有方法的局限性,例如查询和文档中出现的单词之间的不匹配;(2)开发允许数据科学家和检索算法设计者之间有效分离的方法。后者将使数据科学家能够专注于开发有效的相似性模型,而无需过多担心低级别的性能问题,而检索算法的设计者和软件工程师将能够专注于开发更有效和/或可扩展的方法,对结果质量的关注较少。文本搜索被更通用的高精度k-最近(k-NN)邻居搜索所取代。在第一种情况下,它将开发一个相似性函数,超越纯粹的词汇匹配,并考虑到分布相似性,从平行(单语)语料库中学习的相似性,等等。在这种情况下,相似性函数将被用作黑盒函数,与通用相似性搜索引擎相结合,作为非度量空间库(NMSLIB)的一部分实现。将探讨几种搜索算法。其中一种搜索方法将依赖于构建一个邻近图(也称为邻域图),其中节点是对象,相似的节点由边连接。在第二种情况下,所提出的研究将建立一个伪倒排文件的超级条款。超级术语是出现在小尺寸滑动窗口内的单词的(密集或稀疏)矢量表示。超级术语形成了一个伪词汇表,可以使用邻近图(或任何其他有效的k-NN搜索方法)进行索引。在查询时,将从查询中提取超级术语,并与伪词汇表进行匹配,以获得k个最近的超级术语(以及它们出现的文档)。这种方法将结合术语接近度和术语相似度(后者将使该方法受词汇不匹配的影响较小)。由于初步的实验表明,接近图是不够准确和有效的手头的任务,拟议的研究还将尝试开发更好的变体的接近图方法。如果这种改进失败,还将探索其他搜索方法。实验见解、算法改进和新的具有挑战性的数据集(由拟议的工作产生)将推进k-NN搜索的最新技术水平,这是另一种广泛使用的方法。反过来,这将有利于各种其他NLP任务,如分类,基于字典的实体检测和第一个故事检测,这些都严重依赖于k-NN搜索。更多的项目信息将在项目网站上提供:http://www.lti.cs.cmu.edu/PGraph

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Eric Nyberg其他文献

14. Controlled language for authoring and translation
14. 用于创作和翻译的受控语言
  • DOI:
    10.1075/btl.35.17nyb
  • 发表时间:
    2003
  • 期刊:
  • 影响因子:
    1.9
  • 作者:
    Eric Nyberg;T. Mitamura;W. Huijsen
  • 通讯作者:
    W. Huijsen
Charmanteau: Character Embedding Models For Portmanteau Creation
Charmanteau:用于创建 Portmanteau 的字符嵌入模型
The adoption of Industry 4.0- technologies in manufacturing : a multiple case study
制造业采用工业 4.0 技术:多个案例研究
  • DOI:
  • 发表时间:
    2016
  • 期刊:
  • 影响因子:
    0
  • 作者:
    S. Nilsen;Eric Nyberg
  • 通讯作者:
    Eric Nyberg
Large Vessel Occlusion Prediction in the Emergency Department with National Institutes of Health Stroke Scale Components: A Machine Learning Approach
  • DOI:
    10.1016/j.jstrokecerebrovasdis.2021.106030
  • 发表时间:
    2021-10-01
  • 期刊:
  • 影响因子:
  • 作者:
    Donglai Huo;Michelle Leppert;Rebecca Pollard;Sharon N. Poisson;Xiang Fang;David Rubinstein;Igor Malenky;Kelsey Eklund;Eric Nyberg
  • 通讯作者:
    Eric Nyberg
Code-Mixed Question Answering Challenge: Crowd-sourcing Data and Techniques
代码混合问答挑战:众包数据和技术
  • DOI:
    10.18653/v1/w18-3204
  • 发表时间:
    2018
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Khyathi Raghavi Chandu;Ekaterina Loginova;Vishal Gupta;Josef van Genabith;G. Neumann;Manoj Kumar Chinnakotla;Eric Nyberg;A. Black
  • 通讯作者:
    A. Black

Eric Nyberg的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

相似国自然基金

昼夜节律性small RNA在血斑形成时间推断中的法医学应用研究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
tRNA-derived small RNA上调YBX1/CCL5通路参与硼替佐米诱导慢性疼痛的机制研究
  • 批准号:
    n/a
  • 批准年份:
    2022
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
Small RNA调控I-F型CRISPR-Cas适应性免疫性的应答及分子机制
  • 批准号:
    32000033
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
Small RNAs调控解淀粉芽胞杆菌FZB42生防功能的机制研究
  • 批准号:
    31972324
  • 批准年份:
    2019
  • 资助金额:
    58.0 万元
  • 项目类别:
    面上项目
变异链球菌small RNAs连接LuxS密度感应与生物膜形成的机制研究
  • 批准号:
    81900988
  • 批准年份:
    2019
  • 资助金额:
    21.0 万元
  • 项目类别:
    青年科学基金项目
基于small RNA 测序技术解析鸽分泌鸽乳的分子机制
  • 批准号:
    31802058
  • 批准年份:
    2018
  • 资助金额:
    26.0 万元
  • 项目类别:
    青年科学基金项目
肠道细菌关键small RNAs在克罗恩病发生发展中的功能和作用机制
  • 批准号:
    31870821
  • 批准年份:
    2018
  • 资助金额:
    56.0 万元
  • 项目类别:
    面上项目
Small RNA介导的DNA甲基化调控的水稻草矮病毒致病机制
  • 批准号:
    31772128
  • 批准年份:
    2017
  • 资助金额:
    60.0 万元
  • 项目类别:
    面上项目
基于small RNA-seq的针灸治疗桥本甲状腺炎的免疫调控机制研究
  • 批准号:
    81704176
  • 批准年份:
    2017
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
水稻OsSGS3与OsHEN1调控small RNAs合成及其对抗病性的调节
  • 批准号:
    91640114
  • 批准年份:
    2016
  • 资助金额:
    85.0 万元
  • 项目类别:
    重大研究计划

相似海外基金

Collaborative Research: AF: Small: Shape Matching in a Messy World Using Frechet Distance
合作研究:AF:小:使用 Frechet 距离在混乱的世界中进行形状匹配
  • 批准号:
    2311179
  • 财政年份:
    2023
  • 资助金额:
    $ 49.85万
  • 项目类别:
    Standard Grant
Collaborative Research: AF: Small: Shape Matching in a Messy World Using Frechet Distance
合作研究:AF:小:使用 Frechet 距离在混乱的世界中进行形状匹配
  • 批准号:
    2311180
  • 财政年份:
    2023
  • 资助金额:
    $ 49.85万
  • 项目类别:
    Standard Grant
AF: Small: Algorithmic Problems in Online and Matching-Based Market Design
AF:小:在线和基于匹配的市场设计中的算法问题
  • 批准号:
    2230414
  • 财政年份:
    2022
  • 资助金额:
    $ 49.85万
  • 项目类别:
    Standard Grant
AF: Small: Matching in Dynamic Environments
AF:小:动态环境中的匹配
  • 批准号:
    2209520
  • 财政年份:
    2022
  • 资助金额:
    $ 49.85万
  • 项目类别:
    Standard Grant
CIF: Small: Poisson matching: A new tool for information theory
CIF:小:泊松匹配:信息论的新工具
  • 批准号:
    2007965
  • 财政年份:
    2020
  • 资助金额:
    $ 49.85万
  • 项目类别:
    Standard Grant
III: Small: A Submodular Framework for Scalable Graph Matching with Performance Guarantees
III:小型:具有性能保证的可扩展图匹配的子模块框架
  • 批准号:
    1908070
  • 财政年份:
    2019
  • 资助金额:
    $ 49.85万
  • 项目类别:
    Standard Grant
Miniaturized GPS to boost research on the link between pace-of-life profiles, habitat matching, and ecological niche specialisation in small mammals
小型化 GPS 可促进小型哺乳动物的生活节奏概况、栖息地匹配和生态位专业化之间联系的研究
  • 批准号:
    RTI-2019-00413
  • 财政年份:
    2018
  • 资助金额:
    $ 49.85万
  • 项目类别:
    Research Tools and Instruments
AF: Small: Algorithms for Matching, Markets, and Matching-Markets
AF:小:匹配、市场和匹配市场的算法
  • 批准号:
    1815901
  • 财政年份:
    2018
  • 资助金额:
    $ 49.85万
  • 项目类别:
    Standard Grant
AF: SMALL : Algorithmic and Game Theoretic Problems Arising in Modern Matching Markets
AF:小:现代匹配市场中出现的算法和博弈论问题
  • 批准号:
    1813135
  • 财政年份:
    2018
  • 资助金额:
    $ 49.85万
  • 项目类别:
    Standard Grant
RI: Small: RUI: Benchmarks and Algorithms for Mobile Image Matching
RI:小型:RUI:移动图像匹配的基准和算法
  • 批准号:
    1718376
  • 财政年份:
    2017
  • 资助金额:
    $ 49.85万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了