SaTC: CORE: Small: Systematic Threat Characterization and Prevention in Open-Domain Dialog Systems

SaTC:核心:小型:开放域对话系统中的系统威胁特征描述和预防

基本信息

项目摘要

Dialog systems or chatbots powered by deep neural networks are increasingly being deployed at scale without understanding the vulnerabilities impacting them. Using specially designed learning algorithms, these chatbots are trained to learn from existing human-human conversation data to produce convincing conversations on a variety of topics. However, biases in the training data, including intentionally injected ones, can make these systems ripe for abuse by malicious actors who aim to trigger toxic or harmful conversations. This may expose vulnerable users to potential harms, given the lack of attention to security in existing deployments and the fact that they are used in sensitive domains such as healthcare, emotional support, and the U.S. justice system. This project will systematically characterize a variety of threats impacting chatbot systems, then build novel deployable defenses to measure toxicity, uncover hidden vulnerabilities, detoxify impacted systems, and enable attack-resilient training pipelines. The project will also create partnerships between multiple computer science disciplines and between industry and academia to raise awareness of and defend against these threats. The project provides unique opportunities to underrepresented K-12 students to study emerging topics in the field of machine learning and security, aiming to attract them towards STEM careers. This project has three research thrusts. The first is conducting a large-scale measurement study using widely used chatbot pipelines to characterize their vulnerability to unintentionally and intentionally injected toxicity. Toxicity injection attacks are characterized using a novel, fully automated pipeline that leverages large language models with minimal human supervision, allowing the methods to scale. The second thrust is developing a novel generative modeling approach to probe chatbots for hidden toxicity vulnerabilities, and to detoxify models and create safety benchmarks. The third thrust builds on the earlier findings to develop a novel attack-agnostic training pipeline that is resilient to toxicity injection attacks.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
由深度神经网络驱动的对话系统或聊天机器人越来越多地被大规模部署,而不了解影响它们的漏洞。使用专门设计的学习算法,这些聊天机器人经过训练,可以从现有的人与人之间的对话数据中学习,从而在各种主题上产生令人信服的对话。然而,训练数据中的偏差,包括故意注入的偏差,可能会使这些系统被恶意行为者滥用,从而引发有毒或有害的对话。 这可能会使易受攻击的用户面临潜在的伤害,因为现有部署中缺乏对安全性的关注,并且它们被用于医疗保健,情感支持和美国司法系统等敏感领域。该项目将系统地描述影响聊天机器人系统的各种威胁,然后构建新型的可部署防御系统来测量毒性、发现隐藏的漏洞、消除受影响的系统的毒性,并实现攻击恢复训练管道。该项目还将在多个计算机科学学科之间以及工业界和学术界之间建立伙伴关系,以提高对这些威胁的认识和防御。该项目为代表性不足的K-12学生提供了独特的机会,学习机器学习和安全领域的新兴主题,旨在吸引他们从事STEM职业。该项目有三个研究重点。第一个是使用广泛使用的聊天机器人管道进行大规模测量研究,以表征它们对无意和有意注入的毒性的脆弱性。毒性注入攻击的特点是使用一种新颖的、全自动的管道,该管道利用大型语言模型,最少的人工监督,允许方法扩展。第二个重点是开发一种新的生成建模方法,以探测聊天机器人隐藏的毒性漏洞,并对模型进行解毒并创建安全基准。第三个目标是在早期发现的基础上开发一种新的攻击不可知的培训管道,该管道能够抵御毒性注入攻击。该奖项反映了NSF的法定使命,并通过使用基金会的知识价值和更广泛的影响审查标准进行评估,被认为值得支持。

项目成果

期刊论文数量(1)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
A First Look at Toxicity Injection Attacks on Open-domain Chatbots
  • DOI:
    10.1145/3627106.3627122
  • 发表时间:
    2023-12
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Connor Weeks;Aravind Cheruvu;Sifat Muhammad Abdullah;Shravya Kanchi;Daphne Yao;Bimal Viswanath
  • 通讯作者:
    Connor Weeks;Aravind Cheruvu;Sifat Muhammad Abdullah;Shravya Kanchi;Daphne Yao;Bimal Viswanath
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Bimal Viswanath其他文献

Keeping information safe from social networking apps
确保社交网络应用程序中的信息安全
Towards trustworthy social computing systems
  • DOI:
    10.22028/d291-25429
  • 发表时间:
    2016
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Bimal Viswanath
  • 通讯作者:
    Bimal Viswanath
What Happens After You Leak Your Password: Understanding Credential Sharing on Phishing Sites
泄露密码后会发生什么:了解网络钓鱼网站上的凭据共享
Exploring the design space of social network-based Sybil defenses
探索基于社交网络的 Sybil 防御的设计空间
Strength in Numbers: Robust Tamper Detection in Crowd Computations
数量优势:人群计算中稳健的篡改检测

Bimal Viswanath的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

相似国自然基金

胆固醇羟化酶CH25H非酶活依赖性促进乙型肝炎病毒蛋白Core及Pre-core降解的分子机制研究
  • 批准号:
    82371765
  • 批准年份:
    2023
  • 资助金额:
    50 万元
  • 项目类别:
    面上项目
锕系元素5f-in-core的GTH赝势和基组的开发
  • 批准号:
    22303037
  • 批准年份:
    2023
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于合成致死策略搭建Core-matched前药共组装体克服肿瘤耐药的机制研究
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    52 万元
  • 项目类别:
鼠伤寒沙门氏菌LPS core经由CD209/SphK1促进树突状细胞迁移加重炎症性肠病的机制研究
  • 批准号:
  • 批准年份:
    2022
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
肌营养不良蛋白聚糖Core M3型甘露糖肽的精确制备及功能探索
  • 批准号:
    92053110
  • 批准年份:
    2020
  • 资助金额:
    70.0 万元
  • 项目类别:
    重大研究计划
Core-1-O型聚糖黏蛋白缺陷诱导胃炎发生并介导慢性胃炎向胃癌转化的分子机制研究
  • 批准号:
    81902805
  • 批准年份:
    2019
  • 资助金额:
    20.5 万元
  • 项目类别:
    青年科学基金项目
原始地球增生晚期的Core-merging大碰撞事件:地核增生、核幔平衡与核幔边界结构的新认识
  • 批准号:
    41973063
  • 批准年份:
    2019
  • 资助金额:
    65.0 万元
  • 项目类别:
    面上项目
CORDEX-CORE区域气候模拟与预估研讨会
  • 批准号:
    41981240365
  • 批准年份:
    2019
  • 资助金额:
    1.5 万元
  • 项目类别:
    国际(地区)合作与交流项目
RBM38通过协助Pol-ε结合、招募core调控HBV复制
  • 批准号:
    31900138
  • 批准年份:
    2019
  • 资助金额:
    24.0 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

SaTC: CORE: Small: An evaluation framework and methodology to streamline Hardware Performance Counters as the next-generation malware detection system
SaTC:核心:小型:简化硬件性能计数器作为下一代恶意软件检测系统的评估框架和方法
  • 批准号:
    2327427
  • 财政年份:
    2024
  • 资助金额:
    $ 60万
  • 项目类别:
    Continuing Grant
Collaborative Research: NSF-BSF: SaTC: CORE: Small: Detecting malware with machine learning models efficiently and reliably
协作研究:NSF-BSF:SaTC:核心:小型:利用机器学习模型高效可靠地检测恶意软件
  • 批准号:
    2338301
  • 财政年份:
    2024
  • 资助金额:
    $ 60万
  • 项目类别:
    Continuing Grant
Collaborative Research: NSF-BSF: SaTC: CORE: Small: Detecting malware with machine learning models efficiently and reliably
协作研究:NSF-BSF:SaTC:核心:小型:利用机器学习模型高效可靠地检测恶意软件
  • 批准号:
    2338302
  • 财政年份:
    2024
  • 资助金额:
    $ 60万
  • 项目类别:
    Continuing Grant
SaTC: CORE: Small: NSF-DST: Understanding Network Structure and Communication for Supporting Information Authenticity
SaTC:核心:小型:NSF-DST:了解支持信息真实性的网络结构和通信
  • 批准号:
    2343387
  • 财政年份:
    2024
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
NSF-NSERC: SaTC: CORE: Small: Managing Risks of AI-generated Code in the Software Supply Chain
NSF-NSERC:SaTC:核心:小型:管理软件供应链中人工智能生成代码的风险
  • 批准号:
    2341206
  • 财政年份:
    2024
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
Collaborative Research: SaTC: CORE: Small: Towards Secure and Trustworthy Tree Models
协作研究:SaTC:核心:小型:迈向安全可信的树模型
  • 批准号:
    2413046
  • 财政年份:
    2024
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
SaTC: CORE: Small: Socio-Technical Approaches for Securing Cyber-Physical Systems from False Claim Attacks
SaTC:核心:小型:保护网络物理系统免受虚假声明攻击的社会技术方法
  • 批准号:
    2310470
  • 财政年份:
    2023
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
SaTC: CORE: Small: Study, Detection and Containment of Influence Campaigns
SaTC:核心:小型:影响力活动的研究、检测和遏制
  • 批准号:
    2321649
  • 财政年份:
    2023
  • 资助金额:
    $ 60万
  • 项目类别:
    Standard Grant
Collaborative Research: SaTC: CORE: Small: Investigation of Naming Space Hijacking Threat and Its Defense
协作研究:SaTC:核心:小型:命名空间劫持威胁及其防御的调查
  • 批准号:
    2317830
  • 财政年份:
    2023
  • 资助金额:
    $ 60万
  • 项目类别:
    Continuing Grant
Collaborative Research: SaTC: CORE: Small: Towards a Privacy-Preserving Framework for Research on Private, Encrypted Social Networks
协作研究:SaTC:核心:小型:针对私有加密社交网络研究的隐私保护框架
  • 批准号:
    2318843
  • 财政年份:
    2023
  • 资助金额:
    $ 60万
  • 项目类别:
    Continuing Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了