III: Small: Domain-Agnostic Dataset Search

III:小型:与领域无关的数据集搜索

基本信息

  • 批准号:
    1816325
  • 负责人:
  • 金额:
    $ 51.58万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2018
  • 资助国家:
    美国
  • 起止时间:
    2018-08-01 至 2022-07-31
  • 项目状态:
    已结题

项目摘要

Today, the size of the Web is such that one cannot imagine finding much information without a web search engine. Similarly, the number of collections of public datasets now available has become so large as to be difficult for a researcher to track all of them within his or her discipline, and impossible to do so across disciplines. To help searchers find data in a discipline-agnostic manner, this project will investigate new, promising approaches to full-content dataset search. This research will provide the technology and develop the prototype of a tool that can ultimately assist many kinds of scientists to locate data that they can use to perform exploratory analysis and test hypotheses. Thus, this work will enable public dataset discovery and reuse, regardless of who produced the data or where it is stored. A dataset search engine using these methods benefits society by helping researchers to accelerate their work and reduce duplicate efforts. It will also benefit others, such as data journalists, as data promises a new source of evidence and for story discovery, a new way for story-telling and fact-checking, to make reporting that is both meaningful and trustworthy. This work will help any data analyst locate relevant datasets. This project will impact the training of graduate students and undergraduates. This involvement will make it possible to broaden participation by underrepresented groups and the development of educational materials. The researchers will incorporate results of this work in courses, including Data Science, Web Search Engines, Data Journalism, and Semantic Web Topics. Existing dataset search services are cumbersome, focusing on searching descriptions, not data, and cater to searchers looking within their own discipline. The project's goal is to develop a prototype dataset search engine incorporating new techniques for full-content indexing to enable searchers to find data across the web, regardless of domain. The investigators will combine principles and novel methods from information retrieval, databases, and data mining. The design and development of the prototype will also take a user-centric approach, involving professionals and practitioners in observational, interview and experimental studies to inform and guide this process. The outcomes of this work include: (1) The development of new principles, methods, and technologies for the construction of search indexes from hundreds of thousands of real-world public datasets: the researchers will create novel methods for a) full-content indexing and analysis, b) inferring additional metadata such as attribute names when the existing descriptors are lacking and, c) inferring additional descriptors that can be used to resolve schema and data heterogeneity. (2) The understanding of searchers' cognitive processes as they search for and consider use of datasets. A social cognitive model will be built to describe human-system interactions in dataset searches, and to predict the effectiveness of the system in various scenarios. (3) The development of novel interfaces to support the search, exploration, and presentation of datasets to such users. Through this process, the researchers will develop a set of instruments for evaluating the dataset search technology and interface from the user's perspective. Research results will be disseminated broadly by presenting and publishing at conferences and journals, sharing on the web, giving talks, and making developed software open source.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
今天,网络的规模是这样的,人们无法想象找到很多信息没有一个网络搜索引擎。 同样,现在可用的公共数据集的数量已经变得如此之大,以至于研究人员很难在他或她的学科内跟踪所有这些数据集,并且不可能跨学科这样做。 为了帮助搜索者以一种与学科无关的方式找到数据,该项目将研究新的、有前途的全内容数据集搜索方法。这项研究将提供技术,并开发一种工具的原型,最终可以帮助许多类型的科学家找到他们可以用来进行探索性分析和测试假设的数据。因此,这项工作将使公共数据集的发现和重用成为可能,而不管数据是谁产生的,也不管数据存储在哪里。使用这些方法的数据集搜索引擎通过帮助研究人员加速工作并减少重复工作而使社会受益。 它也将使其他人受益,例如数据记者,因为数据有望成为新的证据来源和故事发现,一种讲故事和事实核查的新方式,使报道既有意义又值得信赖。 这项工作将帮助任何数据分析师找到相关的数据集。该项目将影响研究生和本科生的培养。这一参与将使代表性不足的群体能够扩大参与,并使教材的编写工作得以扩大。研究人员将把这项工作的结果纳入课程,包括数据科学,网络搜索引擎,数据新闻和语义网络主题。现有的数据集搜索服务很麻烦,专注于搜索描述,而不是数据,并迎合搜索者在自己的学科范围内寻找。 该项目的目标是开发一个原型数据集搜索引擎,结合新的全内容索引技术,使搜索者能够在整个网络上找到数据,而不管领域。 研究人员将结合联合收割机的原则和新的方法,从信息检索,数据库和数据挖掘。 原型的设计和开发还将采取以用户为中心的方法,让专业人员和从业人员参与观察、访谈和实验研究,为这一进程提供信息和指导。 这项工作的成果包括:(1)开发了新的原则,方法和技术,用于从数十万个真实世界的公共数据集构建搜索索引:研究人员将创建新的方法,用于a)完整内容索引和分析,B)在缺乏现有描述符时推断额外的元数据,例如属性名称,c)推断可用于解决模式和数据异质性的附加描述符。(2)理解搜索者在搜索和考虑使用数据集时的认知过程。将建立一个社会认知模型来描述数据集搜索中的人机交互,并预测系统在各种场景下的有效性。(3)开发新的界面,以支持搜索,探索和向这些用户展示数据集。通过这一过程,研究人员将开发一套工具,从用户的角度评估数据集搜索技术和界面。 研究成果将通过在会议和期刊上发表、在网络上分享、发表演讲以及将开发的软件开源等方式广泛传播。该奖项反映了NSF的法定使命,并通过使用基金会的知识价值和更广泛的影响审查标准进行评估,被认为值得支持。

项目成果

期刊论文数量(14)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Leveraging Schema Labels to Enhance Dataset Search
  • DOI:
    10.1007/978-3-030-45439-5_18
  • 发表时间:
    2020-03-17
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Chen Z;Jia H;Heflin J;Davison BD
  • 通讯作者:
    Davison BD
MGNETS: Multi-Graph Neural Networks for Table Search
MGNETS:用于表搜索的多图神经网络
Neural ranking models for document retrieval
  • DOI:
    10.1007/s10791-021-09398-0
  • 发表时间:
    2021-02
  • 期刊:
  • 影响因子:
    2.5
  • 作者:
    M. Trabelsi;Zhiyu Chen;Brian D. Davison;J. Heflin
  • 通讯作者:
    M. Trabelsi;Zhiyu Chen;Brian D. Davison;J. Heflin
WTR: A Test Collection for Web Table Retrieval
An Architecture for Cell-Centric Indexing of Datasets
以细胞为中心的数据集索引架构
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Qiu, Lixuan;Jia, Haiyan;Davison, Brian D.;Heflin, Jeff
  • 通讯作者:
    Heflin, Jeff
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Brian Davison其他文献

The interstitial space of tumors. MRI study of neoplastic tissue
  • DOI:
    10.1016/s1076-6332(05)80613-0
  • 发表时间:
    1995-12-01
  • 期刊:
  • 影响因子:
  • 作者:
    Brian Davison;Tamo Pels Rijken;Charles Mullen;Ashley Davidoff
  • 通讯作者:
    Ashley Davidoff
Impact of Quality Management Monitoring and Intervention on Central Venous Catheter Dysfunction in the Outpatient Chemotherapy Infusion Setting
  • DOI:
    10.1016/j.jvir.2008.04.026
  • 发表时间:
    2008-08-01
  • 期刊:
  • 影响因子:
  • 作者:
    Anu Bansal;Christoph A. Binkert;Malcolm K. Robinson;Lawrence N. Shulman;Linda Pellerin;Brian Davison
  • 通讯作者:
    Brian Davison

Brian Davison的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Brian Davison', 18)}}的其他基金

III: Small: Collaborative Research: Algorithms, systems, and theories for exploiting data dependencies in crowdsourcing
III:小型:协作研究:在众包中利用数据依赖性的算法、系统和理论
  • 批准号:
    2008155
  • 财政年份:
    2020
  • 资助金额:
    $ 51.58万
  • 项目类别:
    Standard Grant
REU Site: Intelligent and Scalable Systems
REU 站点:智能且可扩展的系统
  • 批准号:
    1757787
  • 财政年份:
    2018
  • 资助金额:
    $ 51.58万
  • 项目类别:
    Standard Grant
III-COR-Medium: Efficient and Effective Search Services Over Archival Webs
III-COR-Medium:档案网站上高效且有效的搜索服务
  • 批准号:
    0803605
  • 财政年份:
    2008
  • 资助金额:
    $ 51.58万
  • 项目类别:
    Standard Grant
CAREER: Contextual Link Analysis
职业:情境链接分析
  • 批准号:
    0545875
  • 财政年份:
    2006
  • 资助金额:
    $ 51.58万
  • 项目类别:
    Continuing Grant
Understanding and Enhancing Queries
理解和增强查询
  • 批准号:
    0328825
  • 财政年份:
    2004
  • 资助金额:
    $ 51.58万
  • 项目类别:
    Continuing Grant

相似国自然基金

昼夜节律性small RNA在血斑形成时间推断中的法医学应用研究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
tRNA-derived small RNA上调YBX1/CCL5通路参与硼替佐米诱导慢性疼痛的机制研究
  • 批准号:
    n/a
  • 批准年份:
    2022
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
Small RNA调控I-F型CRISPR-Cas适应性免疫性的应答及分子机制
  • 批准号:
    32000033
  • 批准年份:
    2020
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目
Small RNAs调控解淀粉芽胞杆菌FZB42生防功能的机制研究
  • 批准号:
    31972324
  • 批准年份:
    2019
  • 资助金额:
    58.0 万元
  • 项目类别:
    面上项目
变异链球菌small RNAs连接LuxS密度感应与生物膜形成的机制研究
  • 批准号:
    81900988
  • 批准年份:
    2019
  • 资助金额:
    21.0 万元
  • 项目类别:
    青年科学基金项目
肠道细菌关键small RNAs在克罗恩病发生发展中的功能和作用机制
  • 批准号:
    31870821
  • 批准年份:
    2018
  • 资助金额:
    56.0 万元
  • 项目类别:
    面上项目
基于small RNA 测序技术解析鸽分泌鸽乳的分子机制
  • 批准号:
    31802058
  • 批准年份:
    2018
  • 资助金额:
    26.0 万元
  • 项目类别:
    青年科学基金项目
Small RNA介导的DNA甲基化调控的水稻草矮病毒致病机制
  • 批准号:
    31772128
  • 批准年份:
    2017
  • 资助金额:
    60.0 万元
  • 项目类别:
    面上项目
基于small RNA-seq的针灸治疗桥本甲状腺炎的免疫调控机制研究
  • 批准号:
    81704176
  • 批准年份:
    2017
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
水稻OsSGS3与OsHEN1调控small RNAs合成及其对抗病性的调节
  • 批准号:
    91640114
  • 批准年份:
    2016
  • 资助金额:
    85.0 万元
  • 项目类别:
    重大研究计划

相似海外基金

SHF: Small: Domain-Specific FPGAs to Accelerate Unrolled DNNs with Fine-Grained Unstructured Sparsity and Mixed Precision
SHF:小型:特定领域 FPGA 加速具有细粒度非结构化稀疏性和混合精度的展开 DNN
  • 批准号:
    2303626
  • 财政年份:
    2023
  • 资助金额:
    $ 51.58万
  • 项目类别:
    Standard Grant
SaTC: CORE: Small: Systematic Threat Characterization and Prevention in Open-Domain Dialog Systems
SaTC:核心:小型:开放域对话系统中的系统威胁特征描述和预防
  • 批准号:
    2231002
  • 财政年份:
    2023
  • 资助金额:
    $ 51.58万
  • 项目类别:
    Standard Grant
SaTC: CORE: Small: Mitigating Threats of Physical-Domain Signal Injections on Security, Reliability, and Safety of Sensing and Control Systems
SaTC:核心:小型:减轻物理域信号注入对传感和控制系统的安全性、可靠性和安全性的威胁
  • 批准号:
    2231682
  • 财政年份:
    2023
  • 资助金额:
    $ 51.58万
  • 项目类别:
    Continuing Grant
RI: Small: Multilingual Supervision for Object Detection under Geographic Domain and Concept Shifts
RI:小型:地理领域和概念转变下目标检测的多语言监督
  • 批准号:
    2329992
  • 财政年份:
    2023
  • 资助金额:
    $ 51.58万
  • 项目类别:
    Standard Grant
SaTC: CORE: Small: Towards Deceptive and Domain-Specific Cyber-Physical Honeypots
SaTC:核心:小型:走向欺骗性和特定领域的网络物理蜜罐
  • 批准号:
    2231651
  • 财政年份:
    2023
  • 资助金额:
    $ 51.58万
  • 项目类别:
    Standard Grant
Small protein-domain affinity reagents and D-proteins
小蛋白结构域亲和试剂和 D 蛋白
  • 批准号:
    RGPIN-2017-06195
  • 财政年份:
    2022
  • 资助金额:
    $ 51.58万
  • 项目类别:
    Discovery Grants Program - Individual
Small protein-domain affinity reagents and D-proteins
小蛋白结构域亲和试剂和 D 蛋白
  • 批准号:
    RGPIN-2017-06195
  • 财政年份:
    2021
  • 资助金额:
    $ 51.58万
  • 项目类别:
    Discovery Grants Program - Individual
Small protein-domain affinity reagents and D-proteins
小蛋白结构域亲和试剂和 D 蛋白
  • 批准号:
    RGPIN-2017-06195
  • 财政年份:
    2020
  • 资助金额:
    $ 51.58万
  • 项目类别:
    Discovery Grants Program - Individual
Discovery of small molecules that specifically target the transmembrane C99 domain of the Amyloid Precursor Protein.
发现特异性靶向淀粉样前体蛋白跨膜 C99 结构域的小分子。
  • 批准号:
    10066062
  • 财政年份:
    2020
  • 资助金额:
    $ 51.58万
  • 项目类别:
III: Small: Go Beyond Short-term Dependency and Homogeneity: A General-Purpose Transformer Recipe for Multi-Domain Heterogeneous Sequential Data Analysis
III:小:超越短期依赖性和同质性:用于多域异构顺序数据分析的通用 Transformer 配方
  • 批准号:
    2008334
  • 财政年份:
    2020
  • 资助金额:
    $ 51.58万
  • 项目类别:
    Continuing Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了