CAREER: Large-Scale Learning for Information Extraction

职业:信息提取的大规模学习

基本信息

  • 批准号:
    1845670
  • 负责人:
  • 金额:
    $ 50万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Continuing Grant
  • 财政年份:
    2019
  • 资助国家:
    美国
  • 起止时间:
    2019-09-01 至 2020-10-31
  • 项目状态:
    已结题

项目摘要

Much of human knowledge is encoded in text. This project aims to substantially advance the capability of machines to read large document collections and reason about the knowledge contained within them using minimal human effort. This will help people to overcome information overload and make better decisions by analyzing vital information that is locked away in unstructured text. Recent years have seen tremendous progress on tasks such as speech recognition and machine translation, by applying deep learning methods on massive, high-quality datasets; however, most available datasets for information extraction are either small or very noisy. The project will address these challenges by developing new methods that can learn more effectively from big, but noisy datasets that are constructed using distant supervision from an existing knowledge base (KB). To demonstrate the new methods' effectiveness, they will be used to support several novel applications. These include the detection of cyber-threats reported online and the analysis of experts' opinions about their severity. Recent studies have found that 75% of software vulnerabilities are first reported online, giving attackers time to exploit the vulnerability. Systems that can automatically read computer security blogs and analyze new threats could help security practitioners to track and prioritize them more effectively. The project includes a plan for integrating research and education. Outreach efforts aim to help attract a more diverse group of students to study computer science. These include hands-on workshops to expose freshmen to exciting natural language processing and artificial intelligence applications. The project will also help to engage advanced undergraduate students in research through new course materials on cutting-edge information extraction techniques.The research will address the machine reading data bottleneck by inventing new methods that can learn effectively from large, noisy datasets using distant supervision. These methods will address the challenge of label noise inherent in distant supervision by performing inference over latent variables during learning, filling in missing information, and resolving ambiguities. The approach combines the benefits of structured learning and neural networks; the structured learning component of the model can override noisy labels in cases where it is sufficiently confident -- this is balanced against a model of missing data in the KB. This will catalyze the rapid development of extractors for many new tasks and domains. To demonstrate this, extensive experiments will compare against state of the art methods using standard benchmark datasets for information extraction, including the Freebase/NYT corpus, TAC KBP datasets, and TACRED. Furthermore, the research will push the boundaries of minimal supervision for Information Extraction by exploring new applications that demonstrate the generality of the approach, including entity, relation and event extraction, time normalization and learning to extract a real-time feed of cyber-threat intelligence using distant supervision from the National Vulnerability Database (NVD). These applications are supported by a comprehensive evaluation plan that includes the development of new corpora and metrics. The project will produce a number of new datasets in addition to a toolkit for minimally supervised information extraction, that will be shared as open source software. This research effort will support the rapid development of information systems for a broad range of new tasks and domains using minimal human effort.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
人类的大部分知识都是以文本形式编码的。 该项目旨在大幅提高机器读取大型文档集合并以最少的人力推理其中包含的知识的能力。 这将帮助人们克服信息过载,并通过分析非结构化文本中锁定的重要信息来做出更好的决策。 近年来,通过在海量高质量数据集上应用深度学习方法,语音识别和机器翻译等任务取得了巨大进展;然而,大多数可用于信息提取的数据集要么很小,要么非常嘈杂。 该项目将通过开发新方法来解决这些挑战,这些新方法可以从使用现有知识库 (KB) 的远程监督构建的大型但嘈杂的数据集中更有效地学习。 为了证明新方法的有效性,它们将用于支持多种新颖的应用。 其中包括检测在线报告的网络威胁以及分析专家对其严重性的意见。 最近的研究发现,75% 的软件漏洞是首先在网上报告的,这给了攻击者利用漏洞的时间。 能够自动读取计算机安全博客并分析新威胁的系统可以帮助安全从业人员更有效地跟踪威胁并确定其优先级。 该项目包括一项整合研究和教育的计划。 外展工作旨在帮助吸引更多元化的学生群体学习计算机科学。 其中包括让新生接触令人兴奋的自然语言处理和人工智能应用的实践研讨会。 该项目还将通过有关尖端信息提取技术的新课程材料,帮助高年级本科生参与研究。该研究将通过发明新方法来解决机器读取数据瓶颈,这些方法可以使用远程监督从大型、嘈杂的数据集中有效学习。 这些方法将通过在学习过程中对潜在变量进行推理、填充缺失信息并解决歧义来解决远程监督中固有的标签噪声的挑战。 该方法结合了结构化学习和神经网络的优点;在足够自信的情况下,模型的结构化学习组件可以覆盖噪声标签——这与知识库中缺失数据的模型相平衡。 这将促进许多新任务和领域的提取器的快速开发。 为了证明这一点,我们将进行大量实验,与使用标准基准数据集(包括 Freebase/NYT 语料库、TAC KBP 数据集和 TACRED)进行信息提取的最先进方法进行比较。 此外,该研究将通过探索展示该方法通用性的新应用来突破信息提取最小监督的界限,包括实体、关系和事件提取、时间规范化以及学习使用国家漏洞数据库(NVD)的远程监督来提取网络威胁情报的实时反馈。 这些应用程序得到了全面评估计划的支持,其中包括开发新的语料库和指标。 除了用于最低限度监督的信息提取的工具包之外,该项目还将产生许多新的数据集,这些工具包将作为开源软件共享。 这项研究工作将支持以最少的人力快速开发适用于各种新任务和领域的信息系统。该奖项反映了 NSF 的法定使命,并通过使用基金会的智力价值和更广泛的影响审查标准进行评估,被认为值得支持。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Alan Ritter其他文献

Stanceosaurus 2.0 - Classifying Stance Towards Russian and Spanish Misinformation
Stanceosaurus 2.0 - 对俄罗斯和西班牙错误信息的立场进行分类
  • DOI:
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Anton Lavrouk;Ian Ligon;Tarek Naous;Jonathan Zheng;Alan Ritter;Wei Xu
  • 通讯作者:
    Wei Xu
Extracting COVID-19 Events from Twitter
从 Twitter 中提取 COVID-19 事件
  • DOI:
  • 发表时间:
    2020
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Shi Zong;Ashutosh Baheti;Wei Xu;Alan Ritter
  • 通讯作者:
    Alan Ritter
“i have a feeling trump will win..................”: Forecasting Winners and Losers from User Predictions on Twitter
“我有一种感觉特朗普会赢……”:根据 Twitter 上的用户预测预测赢家和输家
Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game
张量信任:来自在线游戏的可解释的即时注入攻击
  • DOI:
    10.48550/arxiv.2311.01011
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    S. Toyer;Olivia Watkins;Ethan Mendes;Justin Svegliato;Luke Bailey;Tiffany Wang;Isaac Ong;Karim Elmaaroufi;Pieter Abbeel;Trevor Darrell;Alan Ritter;Stuart Russell
  • 通讯作者:
    Stuart Russell

Alan Ritter的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Alan Ritter', 18)}}的其他基金

CAREER: Large-Scale Learning for Information Extraction
职业:信息提取的大规模学习
  • 批准号:
    2052498
  • 财政年份:
    2020
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
CRII: III: Learning to Extract Events from Knowledge Base Revisions
CRII:III:学习从知识库修订中提取事件
  • 批准号:
    1464128
  • 财政年份:
    2015
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant

相似国自然基金

水稻穗粒数调控关键因子LARGE6的分子遗传网络解析
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
量子自旋液体中拓扑拟粒子的性质:量子蒙特卡罗和新的large-N理论
  • 批准号:
  • 批准年份:
    2020
  • 资助金额:
    62 万元
  • 项目类别:
    面上项目
甘蓝型油菜Large Grain基因调控粒重的分子机制研究
  • 批准号:
    31972875
  • 批准年份:
    2019
  • 资助金额:
    58.0 万元
  • 项目类别:
    面上项目
Large PB/PB小鼠 视网膜新生血管模型的研究
  • 批准号:
    30971650
  • 批准年份:
    2009
  • 资助金额:
    8.0 万元
  • 项目类别:
    面上项目
基因discs large在果蝇卵母细胞的后端定位及其体轴极性形成中的作用机制
  • 批准号:
    30800648
  • 批准年份:
    2008
  • 资助金额:
    20.0 万元
  • 项目类别:
    青年科学基金项目
LARGE基因对口腔癌细胞中α-DG糖基化及表达的分子调控
  • 批准号:
    30772435
  • 批准年份:
    2007
  • 资助金额:
    29.0 万元
  • 项目类别:
    面上项目

相似海外基金

CAREER: Large scale geometry and negative curvature
职业:大规模几何和负曲率
  • 批准号:
    2340341
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
CAREER: A Multi-faceted Framework to Enable Computationally Efficient Evaluation and Automatic Design for Large-scale Economics-driven Transmission Planning
职业生涯:一个多方面的框架,可实现大规模经济驱动的输电规划的计算高效评估和自动设计
  • 批准号:
    2339956
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
CAREER: Strategic Interactions, Learning, and Dynamics in Large-Scale Multi-Agent Systems: Achieving Tractability via Graph Limits
职业:大规模多智能体系统中的战略交互、学习和动态:通过图限制实现可处理性
  • 批准号:
    2340289
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
CAREER: Novel Parallelization Frameworks for Large-Scale Network Optimization with Combinatorial Requirements: Solution Methods and Applications
职业:具有组合要求的大规模网络优化的新型并行化框架:解决方法和应用
  • 批准号:
    2338641
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
CAREER: Learning Theory for Large-scale Stochastic Games
职业:大规模随机博弈的学习理论
  • 批准号:
    2339240
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
CAREER: Theoretical foundations for deep learning and large-scale AI models
职业:深度学习和大规模人工智能模型的理论基础
  • 批准号:
    2339904
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
CAREER: Structure Exploiting Multi-Agent Reinforcement Learning for Large Scale Networked Systems: Locality and Beyond
职业:为大规模网络系统利用多智能体强化学习的结构:局部性及其他
  • 批准号:
    2339112
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
CAREER: Evolutionary Games in Dynamic and Networked Environments for Modeling and Controlling Large-Scale Multi-agent Systems
职业:动态和网络环境中的进化博弈,用于建模和控制大规模多智能体系统
  • 批准号:
    2239410
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
CAREER: Large-Scale Exploration and Interpretation of Consumer-Oriented Legal Documents
职业:面向消费者的法律文件的大规模探索和解读
  • 批准号:
    2237574
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
CAREER: Generation and detection of large-scale quantum entanglement on an integrated photonic chip
职业:在集成光子芯片上生成和检测大规模量子纠缠
  • 批准号:
    2238096
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了