Robustness and Interpretability of Foundation Models

基础模型的稳健性和可解释性

基本信息

  • 批准号:
    2722135
  • 负责人:
  • 金额:
    --
  • 依托单位:
  • 依托单位国家:
    英国
  • 项目类别:
    Studentship
  • 财政年份:
    2022
  • 资助国家:
    英国
  • 起止时间:
    2022 至 无数据
  • 项目状态:
    未结题

项目摘要

Brief description of the context of the research including potential impact: Large language models and foundation models are seeing widespread adoption in various applications, e.g., programming, web search, writing books, assisting medical practitioners, customer service, graphic design, etc. This research addresses important challenges in the development and deployment of generative AI, such as robustness, fairness, privacy, interpretability, and safe use.Aims and Objectives: Objectives include (i) formalizing and benchmarking attacks on autoregressive models, (ii) new evaluation methods for safety, (iii) attacks for system prompt leakage, (iv) certifying domains of expertise, (v) examining fairness across languages, (vi) unifying robustness and privacy, (vii) certifying calibration and ensembles, (vii) interpreting safe/unsafe behaviour, and (viii) developing a theory of prefix and suffix tuning.Novelty of the research methodology: The research would introduce novel ideas such as (i) budgeted adversarial prompts, (ii) chat-style attacks, (iii) distribution divergence-based objectives, (iv) generalizing set-level Lipschitzness for differential privacy, and (v) calibration error-aware training.Alignment to EPSRC's strategies and research areas: Artificial intelligenceAny companies or collaborators involved: None
简要描述研究背景,包括潜在影响:大型语言模型和基础模型在各种应用中得到广泛采用,例如,编程、网络搜索、写书、协助医生、客户服务、平面设计等。这项研究解决了生成式人工智能开发和部署中的重要挑战,如鲁棒性、公平性、隐私性、可解释性和安全使用。目标包括(i)形式化和基准化对自回归模型的攻击,(ii)新的安全评估方法,(iii)对系统即时泄漏的攻击,(iv)认证专业领域,(v)检查跨语言的公平性,(vi)统一鲁棒性和隐私,(vii)认证校准和集合,(vii)解释安全/不安全行为,以及(viii)开发前缀和后缀调谐理论。研究方法的新奇:该研究将引入新的想法,如(i)预算对抗提示,(ii)聊天风格的攻击,(iii)基于分布差异的目标,(iv)为差分隐私推广集合级Lipschitzness,以及(v)校准错误感知训练。与EPSRC的战略和研究领域保持一致:人工智能任何参与的公司或合作者:无

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

其他文献

Internet-administered, low-intensity cognitive behavioral therapy for parents of children treated for cancer: A feasibility trial (ENGAGE).
针对癌症儿童父母的互联网管理、低强度认知行为疗法:可行性试验 (ENGAGE)。
  • DOI:
    10.1002/cam4.5377
  • 发表时间:
    2023-03
  • 期刊:
  • 影响因子:
    4
  • 作者:
  • 通讯作者:
Differences in child and adolescent exposure to unhealthy food and beverage advertising on television in a self-regulatory environment.
在自我监管的环境中,儿童和青少年在电视上接触不健康食品和饮料广告的情况存在差异。
  • DOI:
    10.1186/s12889-023-15027-w
  • 发表时间:
    2023-03-23
  • 期刊:
  • 影响因子:
    4.5
  • 作者:
  • 通讯作者:
The association between rheumatoid arthritis and reduced estimated cardiorespiratory fitness is mediated by physical symptoms and negative emotions: a cross-sectional study.
类风湿性关节炎与估计心肺健康降低之间的关联是由身体症状和负面情绪介导的:一项横断面研究。
  • DOI:
    10.1007/s10067-023-06584-x
  • 发表时间:
    2023-07
  • 期刊:
  • 影响因子:
    3.4
  • 作者:
  • 通讯作者:
ElasticBLAST: accelerating sequence search via cloud computing.
ElasticBLAST:通过云计算加速序列搜索。
  • DOI:
    10.1186/s12859-023-05245-9
  • 发表时间:
    2023-03-26
  • 期刊:
  • 影响因子:
    3
  • 作者:
  • 通讯作者:
Amplified EQCM-D detection of extracellular vesicles using 2D gold nanostructured arrays fabricated by block copolymer self-assembly.
使用通过嵌段共聚物自组装制造的 2D 金纳米结构阵列放大 EQCM-D 检测细胞外囊泡。
  • DOI:
    10.1039/d2nh00424k
  • 发表时间:
    2023-03-27
  • 期刊:
  • 影响因子:
    9.7
  • 作者:
  • 通讯作者:

的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('', 18)}}的其他基金

An implantable biosensor microsystem for real-time measurement of circulating biomarkers
用于实时测量循环生物标志物的植入式生物传感器微系统
  • 批准号:
    2901954
  • 财政年份:
    2028
  • 资助金额:
    --
  • 项目类别:
    Studentship
Exploiting the polysaccharide breakdown capacity of the human gut microbiome to develop environmentally sustainable dishwashing solutions
利用人类肠道微生物群的多糖分解能力来开发环境可持续的洗碗解决方案
  • 批准号:
    2896097
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
A Robot that Swims Through Granular Materials
可以在颗粒材料中游动的机器人
  • 批准号:
    2780268
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Likelihood and impact of severe space weather events on the resilience of nuclear power and safeguards monitoring.
严重空间天气事件对核电和保障监督的恢复力的可能性和影响。
  • 批准号:
    2908918
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Proton, alpha and gamma irradiation assisted stress corrosion cracking: understanding the fuel-stainless steel interface
质子、α 和 γ 辐照辅助应力腐蚀开裂:了解燃料-不锈钢界面
  • 批准号:
    2908693
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Field Assisted Sintering of Nuclear Fuel Simulants
核燃料模拟物的现场辅助烧结
  • 批准号:
    2908917
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Assessment of new fatigue capable titanium alloys for aerospace applications
评估用于航空航天应用的新型抗疲劳钛合金
  • 批准号:
    2879438
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Developing a 3D printed skin model using a Dextran - Collagen hydrogel to analyse the cellular and epigenetic effects of interleukin-17 inhibitors in
使用右旋糖酐-胶原蛋白水凝胶开发 3D 打印皮肤模型,以分析白细胞介素 17 抑制剂的细胞和表观遗传效应
  • 批准号:
    2890513
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
CDT year 1 so TBC in Oct 2024
CDT 第 1 年,预计 2024 年 10 月
  • 批准号:
    2879865
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship
Understanding the interplay between the gut microbiome, behavior and urbanisation in wild birds
了解野生鸟类肠道微生物组、行为和城市化之间的相互作用
  • 批准号:
    2876993
  • 财政年份:
    2027
  • 资助金额:
    --
  • 项目类别:
    Studentship

相似海外基金

Collaborative Research: SHF: Medium: Toward Understandability and Interpretability for Neural Language Models of Source Code
合作研究:SHF:媒介:实现源代码神经语言模型的可理解性和可解释性
  • 批准号:
    2423813
  • 财政年份:
    2024
  • 资助金额:
    --
  • 项目类别:
    Standard Grant
Enhancing the Accuracy and Interpretability of Global Flood Models with AI: Development of a Physics-Guided Deep Learning Model Considering River Network Topology
利用人工智能提高全球洪水模型的准确性和可解释性:考虑河网拓扑的物理引导深度学习模型的开发
  • 批准号:
    24K17353
  • 财政年份:
    2024
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
Collaborative Research: SHF: Medium: Toward Understandability and Interpretability for Neural Language Models of Source Code
合作研究:SHF:媒介:实现源代码神经语言模型的可理解性和可解释性
  • 批准号:
    2311468
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
    Standard Grant
Automatic Controller Design with Performance and Interpretability in Reliable Industrial Applications
在可靠的工业应用中具有性能和可解释性的自动控制器设计
  • 批准号:
    23K19116
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Research Activity Start-up
Collaborative Research: SHF: Medium: Toward Understandability and Interpretability for Neural Language Models of Source Code
合作研究:SHF:媒介:实现源代码神经语言模型的可理解性和可解释性
  • 批准号:
    2311469
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
    Standard Grant
Development of Vacancy Rate Prediction Methods for Apartments with Prediction Accuracy and Interpretability
开发具有预测准确性和可解释性的公寓空置率预测方法
  • 批准号:
    23K01333
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Non-Contact Sleep Stage Estimation: Machine Learning in Multi-Imbalance Data for Improvements in Accuracy and Interpretability
非接触式睡眠阶段估计:多重不平衡数据中的机器学习,以提高准确性和可解释性
  • 批准号:
    22KJ1367
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
CAREER: Small Data in a Big World: Balancing Interpretability and Generalizability for Data Integration in Clinical Neuroscience
职业:大世界中的小数据:平衡临床神经科学数据集成的可解释性和概括性
  • 批准号:
    2322823
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
    Continuing Grant
CRII: III: Pursuing Interpretability in Utilitarian Online Learning Models
CRII:III:追求功利在线学习模式的可解释性
  • 批准号:
    2245946
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
    Standard Grant
Improving the interpretability of genetic studies of major depressive disorder to identify risk genes
提高重度抑郁症基因研究的可解释性以识别风险基因
  • 批准号:
    10504696
  • 财政年份:
    2022
  • 资助金额:
    --
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了