EAGER: Using Large Language Models to Model Threats to Sensitive Information

EAGER:使用大型语言模型对敏感信息的威胁进行建模

基本信息

  • 批准号:
    2331492
  • 负责人:
  • 金额:
    $ 30万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Standard Grant
  • 财政年份:
    2023
  • 资助国家:
    美国
  • 起止时间:
    2023-10-01 至 2024-09-30
  • 项目状态:
    已结题

项目摘要

The review process for releasing government records can be time-consuming and error prone. Large Language Models could help reviewers determine whether information is already in the public domain. By developing a prototype system and measuring performance at different stages, this project aims to estimate the additional data and training required to achieve acceptable levels of accuracy. The iterative nature of the system and the involvement of domain experts allows for measuring and minimizing “hallucination.”The project decouples the reasoning ability of Large Language Models from knowledge databases. It develops a semantic query engine optimized for accurate extraction of relevant information. The project also takes an active approach to fine-tuning, whereby domain experts train a model that generates queries to retrieve records from the knowledgebase, and allows them to fine tune the retrieval engines by assessing the passages that are extracted from these records before they are fed into the Large Language Model for analysis. The output includes text descriptions of what is found through record assembly, accompanied by the records themselves for further evaluation and fine-tuning. Recently released records will serve as test data, with experts categorizing the information as new or already known. Performance metrics are analyzed, considering the impact of data size and composition on accuracy.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
发布政府记录的审查过程可能是耗时的,并且容易出错。大型语言模型可以帮助审阅者确定信息是否已经在公共领域中。通过开发原型系统并在不同阶段衡量性能,该项目旨在估计获得可接受的准确性水平所需的其他数据和培训。系统的迭代性质和领域专家的参与可以衡量和最大程度地减少“幻觉”。该项目将大语言模型的推理能力从知识数据库中脱颖而出。它开发了优化的语义查询引擎,以准确提取相关信息。该项目还采用了一种积极的方法进行微调,域专家培训了一个模型,该模型生成查询以从知识库中检索记录,并允许他们通过评估从这些记录中提取的段落来微调检索引擎,然后才能将其馈入大语言模型进行分析。该输出包括通过记录组件发现的文本描述,这些内容由记录本身完成,以进行进一步的评估和微调。最近发布的记录将用作测试数据,专家将信息归类为新的或已知的信息。考虑到数据规模和组成对准确性的影响,对性能指标进行了分析。该奖项反映了NSF的法定任务,并且使用基金会的知识分子优点和更广泛的影响评估标准,被认为值得通过评估来获得支持。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Matthew Connelly其他文献

Explorer Multi-Snapshot Imaging for Chromatographic Peak Analysis
用于色谱峰分析的 Explorer 多快照成像
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
    M. I. James R. Hopgood;Matthew Connelly;Barry McHoull;Darren Troy
  • 通讯作者:
    Darren Troy
63 - Performance of the Genomic DNA Assay for the Agilent 4200 TapeStation System
  • DOI:
    10.1016/j.cancergen.2016.05.064
  • 发表时间:
    2016-05-01
  • 期刊:
  • 影响因子:
  • 作者:
    Rainer Nitsche;Matthew Connelly;Colin Bayne;Susanne Glück;Marcus Gassmann
  • 通讯作者:
    Marcus Gassmann

Matthew Connelly的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

相似国自然基金

使用单分子磁镊研究DNA纽结
  • 批准号:
    12374216
  • 批准年份:
    2023
  • 资助金额:
    53 万元
  • 项目类别:
    面上项目
开放空间内部特征对公共生活行为的复合影响效应与使用者感知机理研究
  • 批准号:
    52308052
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
时空交互与社会化交互协同驱动的弱势道路使用者轨迹预测方法研究
  • 批准号:
    52302501
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
使用三维辐射磁流体力学数值模拟研究太阳活动区日冕加热问题
  • 批准号:
    12373054
  • 批准年份:
    2023
  • 资助金额:
    52 万元
  • 项目类别:
    面上项目
同义密码子使用模式对BVDV NS5A介导IRES元件翻译调控的影响
  • 批准号:
    32360874
  • 批准年份:
    2023
  • 资助金额:
    32 万元
  • 项目类别:
    地区科学基金项目

相似海外基金

EAGER: Exploratory Measurements of Large Winds and Shears in the Lower Thermosphere and Their Variability Using an Enhanced Sodium Lidar
EAGER:使用增强型钠激光雷达探索性测量低层热层的大风和切变及其变化
  • 批准号:
    1954308
  • 财政年份:
    2019
  • 资助金额:
    $ 30万
  • 项目类别:
    Standard Grant
EAGER: Using Large-scale Web Data for Online Attention Models and Identification of Reading Disabilities
EAGER:使用大规模网络数据进行在线注意力模型和阅读障碍识别
  • 批准号:
    1840751
  • 财政年份:
    2018
  • 资助金额:
    $ 30万
  • 项目类别:
    Standard Grant
EAGER: Modifying human cognition using targeted non-invasive stimulation of large-scale brain networks
EAGER:利用大规模大脑网络的有针对性的非侵入性刺激来改变人类认知
  • 批准号:
    1753677
  • 财政年份:
    2017
  • 资助金额:
    $ 30万
  • 项目类别:
    Standard Grant
EAGER: Online Processing of Data in Large Facilities using National Advanced CyberInfrastructure
EAGER:使用国家先进网络基础设施在线处理大型设施中的数据
  • 批准号:
    1745246
  • 财政年份:
    2017
  • 资助金额:
    $ 30万
  • 项目类别:
    Standard Grant
EAGER: Using Machine Learning to Increase the Operational Efficiency of Large Distributed Systems
EAGER:利用机器学习提高大型分布式系统的运营效率
  • 批准号:
    1649087
  • 财政年份:
    2016
  • 资助金额:
    $ 30万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了