CAREER: Enabling data valuation and deletion in human-centered machine learning

职业:在以人为本的机器学习中实现数据评估和删除

基本信息

  • 批准号:
    1942926
  • 负责人:
  • 金额:
    $ 49.99万
  • 依托单位:
  • 依托单位国家:
    美国
  • 项目类别:
    Continuing Grant
  • 财政年份:
    2020
  • 资助国家:
    美国
  • 起止时间:
    2020-06-15 至 2025-05-31
  • 项目状态:
    未结题

项目摘要

As data becomes an essential driver of technological and economic developments, it is critical to understand the value of data in different applications. This project develops a computational approach to quantify what type of data is more or less useful when the data is used to train prediction algorithms. This characterization of data value is important because it enables users to filter out poor quality data and to identify data that are important to collect in the future. In addition to data valuation, the project also develops complementary methods to facilitate deleting data from prediction algorithms. This would allow users to quickly remove poor quality data or data that might have privacy concerns from algorithms. Data valuation and data deletion are core aspects of recent policies aimed to enable individuals control over how their data is used and monetized by third-parties. The methods developed in this project can inform the implementation of such policies. This project develops a framework for data valuation based on extending the concept of Shapley value from economics. Shapley value measures how individual components contribute to the whole group. This project will build a rigorous statistical theory of data Shapley value, together with new scalable algorithms for estimating Shapley values on large datasets. Moreover, modifications to data Shapley value by relaxing its constraints will be investigated. Computing data Shapley value involves iteratively deleting certain data points and measuring the effect of this deletion on the performance of the trained machine learning model. This formulation closely links data valuation with the data deletion subproject. The goal of the latter is to efficiently delete subsets of the training data from a machine learning model without having to retrain from scratch. The data valuation and deletion methods will be implemented and validated on large publicly available biomedical datasets.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
随着数据成为技术和经济发展的重要驱动力,理解数据在不同应用中的价值至关重要。该项目开发了一种计算方法来量化当数据用于训练预测算法时哪种类型的数据或多或少有用。数据价值的这种特征很重要,因为它使用户能够过滤掉质量差的数据,并确定将来需要收集的重要数据。除了数据评估,该项目还开发了辅助方法,以方便从预测算法中删除数据。这将允许用户从算法中快速删除质量差的数据或可能涉及隐私的数据。数据评估和数据删除是近期政策的核心内容,这些政策旨在使个人能够控制其数据如何被第三方使用和货币化。本项目制定的方法可以为这些政策的实施提供信息。本项目在扩展经济学中的Shapley值概念的基础上,开发了一个数据评估的框架。Shapley值衡量单个组件对整个组的贡献。该项目将建立一个严格的数据Shapley值统计理论,以及用于估计大型数据集上Shapley值的新的可扩展算法。此外,还将研究通过放宽数据Shapley值的约束来修改数据Shapley值。计算数据Shapley值涉及迭代删除某些数据点,并测量这种删除对训练后的机器学习模型性能的影响。这个公式将数据评估与数据删除子项目紧密联系在一起。后者的目标是从机器学习模型中有效地删除训练数据的子集,而无需从头开始重新训练。数据评估和删除方法将在大型公开生物医学数据集上实施和验证。该奖项反映了美国国家科学基金会的法定使命,并通过使用基金会的知识价值和更广泛的影响审查标准进行评估,被认为值得支持。

项目成果

期刊论文数量(5)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
Beta Shapley: a Unified and Noise-reduced Data Valuation Framework for Machine Learning
  • DOI:
  • 发表时间:
    2021-10
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Yongchan Kwon;James Y. Zou
  • 通讯作者:
    Yongchan Kwon;James Y. Zou
MetaShift: A Dataset of Datasets for Evaluating Contextual Distribution Shifts and Training Conflicts
  • DOI:
  • 发表时间:
    2022-02
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Weixin Liang;James Y. Zou
  • 通讯作者:
    Weixin Liang;James Y. Zou
Approximate Data Deletion from Machine Learning Models
机器学习模型中的近似数据删除
  • DOI:
  • 发表时间:
    2021
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Izzo, Zach;Smart, Mary;Chaudhuri, Kamalika;Zou, James
  • 通讯作者:
    Zou, James
MLDemon: Deployment Monitoring for Machine Learning Systems
  • DOI:
  • 发表时间:
    2021-04
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Antonio A. Ginart;Martin Jinye Zhang;James Y. Zou
  • 通讯作者:
    Antonio A. Ginart;Martin Jinye Zhang;James Y. Zou
Efficient computation and analysis of distributional Shapley values
  • DOI:
  • 发表时间:
    2020-07
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Yongchan Kwon;Manuel A. Rivas;James Y. Zou
  • 通讯作者:
    Yongchan Kwon;Manuel A. Rivas;James Y. Zou
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

James Zou其他文献

Dynamical Systems Model of RNA Velocity Improves Inference of Single-cell Trajectory, Pseudo-time and Gene Regulation.
RNA 速度的动态系统模型改进了单细胞轨迹、伪时间和基因调控的推断。
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    5.6
  • 作者:
    Ruishan Liu;A. Pisco;Emelie Braun;S. Linnarsson;James Zou
  • 通讯作者:
    James Zou
Algorithms and Models for Genome Biology
基因组生物学的算法和模型
  • DOI:
  • 发表时间:
    2014
  • 期刊:
  • 影响因子:
    0
  • 作者:
    James Zou
  • 通讯作者:
    James Zou
Data Acquisition: A New Frontier in Data-centric AI
数据采集​​:以数据为中心的人工智能的新领域
  • DOI:
  • 发表时间:
    2023
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Lingjiao Chen;Bilge Acun;Newsha Ardalani;Yifan Sun;Feiyang Kang;Hanrui Lyu;Yongchan Kwon;Ruoxi Jia;Carole;Matei Zaharia;James Zou
  • 通讯作者:
    James Zou
Spatial transcriptomic clocks reveal cell proximity effects in brain ageing
空间转录组学时钟揭示了大脑衰老中的细胞邻近效应
  • DOI:
    10.1038/s41586-024-08334-8
  • 发表时间:
    2024-12-18
  • 期刊:
  • 影响因子:
    48.500
  • 作者:
    Eric D. Sun;Olivia Y. Zhou;Max Hauptschein;Nimrod Rappoport;Lucy Xu;Paloma Navarro Negredo;Ling Liu;Thomas A. Rando;James Zou;Anne Brunet
  • 通讯作者:
    Anne Brunet
Simple and effective embedding model for single-cell biology built from ChatGPT
基于 ChatGPT 构建的用于单细胞生物学的简单有效嵌入模型
  • DOI:
    10.1038/s41551-024-01284-6
  • 发表时间:
    2024-12-06
  • 期刊:
  • 影响因子:
    26.600
  • 作者:
    Yiqun Chen;James Zou
  • 通讯作者:
    James Zou

James Zou的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('James Zou', 18)}}的其他基金

AF: MEDIUM: Collaborative Research: Foundations of Adaptive Data Analysis
AF:中:协作研究:自适应数据分析的基础
  • 批准号:
    1763191
  • 财政年份:
    2018
  • 资助金额:
    $ 49.99万
  • 项目类别:
    Continuing Grant
CRII: III: Robust Machine Learning Methods for Messy Data
CRII:III:针对杂乱数据的鲁棒机器学习方法
  • 批准号:
    1657155
  • 财政年份:
    2017
  • 资助金额:
    $ 49.99万
  • 项目类别:
    Standard Grant

相似海外基金

CC* Networking Infrastructure: Enabling Big Science and Big Data Projects at the University of Massachusetts
CC* 网络基础设施:支持马萨诸塞大学的大科学和大数据项目
  • 批准号:
    2346286
  • 财政年份:
    2024
  • 资助金额:
    $ 49.99万
  • 项目类别:
    Standard Grant
CRII: CSR: Enabling On-Device Continual Learning through Enhancing Efficiency of Computing, Memory, and Data
CRII:CSR:通过提高计算、内存和数据的效率实现设备上的持续学习
  • 批准号:
    2348376
  • 财政年份:
    2024
  • 资助金额:
    $ 49.99万
  • 项目类别:
    Standard Grant
PROMETHEUS: Enabling a Data Rich Additive Manufacturing Process
PROMETHEUS:实现数据丰富的增材​​制造流程
  • 批准号:
    10092251
  • 财政年份:
    2024
  • 资助金额:
    $ 49.99万
  • 项目类别:
    Collaborative R&D
THUNDER - THermochemical storage Utilization eNabling Data centre seasonal Energy Recovery
THUNDER - 热化学存储利用 eNabling 数据中心季节性能源回收
  • 批准号:
    10088548
  • 财政年份:
    2024
  • 资助金额:
    $ 49.99万
  • 项目类别:
    EU-Funded
An innovative EDI data, insights & peer benchmarking platform enabling global business leaders to build data-led EDI strategies, plans and budgets.
创新的 EDI 数据、见解
  • 批准号:
    10100319
  • 财政年份:
    2024
  • 资助金额:
    $ 49.99万
  • 项目类别:
    Collaborative R&D
Enabling net zero retrofit: using AI to generate new data driven insights and support better decision making
实现净零改造:使用人工智能生成新的数据驱动的见解并支持更好的决策
  • 批准号:
    10114530
  • 财政年份:
    2024
  • 资助金额:
    $ 49.99万
  • 项目类别:
    SME Support
CC* Integration-Small: Enhancing Data Transfers by Enabling Programmability and Closed-loop Control in a Non-programmable Science DMZ
CC* Integration-Small:通过在不可编程科学 DMZ 中启用可编程性和闭环控制来增强数据传输
  • 批准号:
    2346726
  • 财政年份:
    2024
  • 资助金额:
    $ 49.99万
  • 项目类别:
    Standard Grant
Collaborative Research: CPS: Medium: Enabling Data-Driven Security and Safety Analyses for Cyber-Physical Systems
协作研究:CPS:中:为网络物理系统实现数据驱动的安全和安全分析
  • 批准号:
    2414176
  • 财政年份:
    2023
  • 资助金额:
    $ 49.99万
  • 项目类别:
    Standard Grant
Enabling AI-based Mouse Genetic Discovery
实现基于人工智能的小鼠基因发现
  • 批准号:
    10724522
  • 财政年份:
    2023
  • 资助金额:
    $ 49.99万
  • 项目类别:
XVIR-110 an ultra-long-acting INSTI for HIV pre-exposure prophylaxis in IND-enabling studies
XVIR-110 是一种超长效 INSTI,用于 IND 支持研究中的 HIV 暴露前预防
  • 批准号:
    10764186
  • 财政年份:
    2023
  • 资助金额:
    $ 49.99万
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了