CAREER: Data Valuation in the Wild: Theories, Algorithms, and Applications

职业:野外数据评估:理论、算法和应用

基本信息

项目摘要

Data are essential ingredients for building machine learning (ML) applications. The ability to quantify and measure the value of data is critical to the entire ML lifecycle: from identifying useful data sources, to setting propriety over samples during training, and to interpreting the reason why certain behaviors of a model emerge during deployment. The potential of data valuation has been observed in many applications over the past few years. However, intermixed with these positive results is a vast array of applications for which existing data valuation techniques are not yet applicable, or too expensive to execute, or produce valuation results with substantial uncertainty. This project aims to enable data valuation to overcome applicability, scalability, and reproducibility challenges and transition to a practical and reliable tool for a data-centric future. This work will have a broad impact on society in terms of facilitating automated data quality management, designing incentives for data sharing, and improving the robustness of ML applications. This project will train undergraduate students to solve ML problems from both an algorithmic and a data quality perspective, while in the meantime creating useful school-age learning modules implemented at local, regional, and global scales. The project consists of four research tasks to advance data valuation from different dimensions: 1) designing data valuation techniques that are robust to overcome the randomness in modern ML training algorithms; 2) developing new frameworks to determine the value of data samples given limited information about downstream learning tasks; 3) investigating principled methods to value heterogeneous and streaming data; and 4) creating and open-sourcing a unified multi-faceted evaluation platform to spur future advances in more complex data valuation. The proposed techniques are implemented and validated on a variety of high-impact real-world applications, including autonomous driving, energy-efficient buildings, and conversational artificial intelligence.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
数据是构建机器学习(ML)应用程序的基本要素。量化和衡量数据价值的能力对于整个机器学习生命周期至关重要:从识别有用的数据源,到在训练期间对样本进行适当的设置,以及解释模型在部署期间出现某些行为的原因。在过去几年中,在许多应用中已经观察到数据估值的潜力。然而,与这些积极的结果交织在一起的是大量的应用程序,现有的数据估值技术尚不适用,或执行起来过于昂贵,或产生具有很大不确定性的估值结果。该项目旨在使数据评估能够克服适用性,可扩展性和可重复性的挑战,并过渡到以数据为中心的未来的实用和可靠的工具。这项工作将在促进自动化数据质量管理、设计数据共享激励措施以及提高机器学习应用程序的健壮性方面对社会产生广泛的影响。该项目将培训本科生从算法和数据质量的角度解决机器学习问题,同时创建在本地,区域和全球范围内实施的有用的学龄学习模块。该项目包括四个研究任务,从不同的维度推进数据估值:1)设计强大的数据估值技术,以克服现代ML训练算法中的随机性; 2)开发新的框架,以确定数据样本的价值,给出有关下游学习任务的有限信息; 3)研究评估异构和流数据的原则方法;以及4)创建和开放一个统一的多方面评估平台,以促进未来更复杂的数据评估的发展。该奖项反映了NSF的法定使命,并通过使用基金会的知识价值和更广泛的影响审查标准进行评估,被认为值得支持。

项目成果

期刊论文数量(3)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
2D-Shapley: A Framework for Fragmented Data Valuation
  • DOI:
    10.48550/arxiv.2306.10473
  • 发表时间:
    2023-06
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Zhihong Liu;H. Just;Xiangyu Chang;X. Chen;R. Jia
  • 通讯作者:
    Zhihong Liu;H. Just;Xiangyu Chang;X. Chen;R. Jia
LAVA: Data Valuation without Pre-Specified Learning Algorithms
  • DOI:
    10.48550/arxiv.2305.00054
  • 发表时间:
    2023-04
  • 期刊:
  • 影响因子:
    0
  • 作者:
    H. Just;Feiyang Kang;Jiachen T. Wang;Yi Zeng;Myeongseob Ko;Ming Jin;R. Jia
  • 通讯作者:
    H. Just;Feiyang Kang;Jiachen T. Wang;Yi Zeng;Myeongseob Ko;Ming Jin;R. Jia
Data Banzhaf: A Robust Data Valuation Framework for Machine Learning
  • DOI:
  • 发表时间:
    2022-05
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Jiachen T. Wang;R. Jia
  • 通讯作者:
    Jiachen T. Wang;R. Jia
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Ruoxi Jia其他文献

Data Shapley in One Training Run
一次训练中的数据 Shapley
  • DOI:
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Jiachen T. Wang;Prateek Mittal;Dawn Song;Ruoxi Jia
  • 通讯作者:
    Ruoxi Jia
Efficient Data Shapley for Weighted Nearest Neighbor Algorithms
用于加权最近邻算法的高效数据 Shapley
  • DOI:
    10.48550/arxiv.2401.11103
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Jiachen T. Wang;Prateek Mittal;Ruoxi Jia
  • 通讯作者:
    Ruoxi Jia
One-Round Active Learning through Data Utility Learning and Proxy Models
通过数据效用学习和代理模型进行一轮主动学习
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Jiachen T. Wang;Si Chen;Ruoxi Jia;Virginia Tech;T. Jiachen;Wang
  • 通讯作者:
    Wang
BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models
BEEAR:基于嵌入的对抗性删除指令调整语言模型中的安全后门
  • DOI:
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Yi Zeng;Weiyu Sun;Tran Ngoc Huynh;Dawn Song;Bo Li;Ruoxi Jia
  • 通讯作者:
    Ruoxi Jia
AI Risk Categorization Decoded (AIR 2024): From Government Regulations to Corporate Policies
人工智能风险分类解读(AIR 2024):从政府法规到企业政策
  • DOI:
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Yi Zeng;Kevin Klyman;Andy Zhou;Yu Yang;Minzhou Pan;Ruoxi Jia;Dawn Song;Percy Liang;Bo Li
  • 通讯作者:
    Bo Li

Ruoxi Jia的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Ruoxi Jia', 18)}}的其他基金

III: Medium: Towards Inclusive Recommendation Systems with Stakeholder Alignment
III:中:迈向利益相关者联盟的包容性推荐系统
  • 批准号:
    2312794
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
Collaborative Research: RI: Small: Foundations of Few-Round Active Learning
协作研究:RI:小型:少轮主动学习的基础
  • 批准号:
    2313130
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant

相似国自然基金

Scalable Learning and Optimization: High-dimensional Models and Online Decision-Making Strategies for Big Data Analysis
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    万元
  • 项目类别:
    合作创新研究团队
Data-driven Recommendation System Construction of an Online Medical Platform Based on the Fusion of Information
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    万元
  • 项目类别:
    外国青年学者研究基金项目
Development of a Linear Stochastic Model for Wind Field Reconstruction from Limited Measurement Data
  • 批准号:
  • 批准年份:
    2020
  • 资助金额:
    40 万元
  • 项目类别:
基于Linked Open Data的Web服务语义互操作关键技术
  • 批准号:
    61373035
  • 批准年份:
    2013
  • 资助金额:
    77.0 万元
  • 项目类别:
    面上项目
Molecular Interaction Reconstruction of Rheumatoid Arthritis Therapies Using Clinical Data
  • 批准号:
    31070748
  • 批准年份:
    2010
  • 资助金额:
    34.0 万元
  • 项目类别:
    面上项目
高维数据的函数型数据(functional data)分析方法
  • 批准号:
    11001084
  • 批准年份:
    2010
  • 资助金额:
    16.0 万元
  • 项目类别:
    青年科学基金项目
染色体复制负调控因子datA在细胞周期中的作用
  • 批准号:
    31060015
  • 批准年份:
    2010
  • 资助金额:
    25.0 万元
  • 项目类别:
    地区科学基金项目
Computational Methods for Analyzing Toponome Data
  • 批准号:
    60601030
  • 批准年份:
    2006
  • 资助金额:
    17.0 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

An innovative platform using ML/AI to analyse farm data and deliver insights to improve farm performance, increasing farm profitability by 5-10%
An%20innovative%20platform%20using%20ML/AI%20to%20analysis%20farm%20data%20and%20deliver%20insights%20to%20improv%20farm%20performance,%20increasing%20farm%20profitability%20by%205-10%
  • 批准号:
    10093235
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Collaborative R&D
Seamless integration of Financial data into ESG data
将财务数据无缝集成到 ESG 数据中
  • 批准号:
    10099890
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Collaborative R&D
Patient Lifestyle and Disease Data Interactium (PaLaDIn)
患者生活方式和疾病数据交互 (PaLaDIn)
  • 批准号:
    10103989
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    EU-Funded
Patient Lifestyle and Disease Data Interactium (PaLaDIn)
患者生活方式和疾病数据交互 (PaLaDIn)
  • 批准号:
    10105921
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    EU-Funded
Treecle - data and automation to unlock woodland creation in the UK to achieve net zero
Treecle - 数据和自动化解锁英国林地创造以实现净零排放
  • 批准号:
    10111492
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    SME Support
NEMO - Net zero events using multiple open data sources
NEMO - 使用多个开放数据源的净零事件
  • 批准号:
    10114096
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    SME Support
Facilitating circular construction practices in the UK: A data driven online marketplace for waste building materials
促进英国的循环建筑实践:数据驱动的废弃建筑材料在线市场
  • 批准号:
    10113920
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    SME Support
Quantum Machine Learning for Financial Data Streams
金融数据流的量子机器学习
  • 批准号:
    10073285
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Feasibility Studies
N2Vision+: A robot-enabled, data-driven machine vision tool for nitrogen diagnosis of arable soils
N2Vision:一种由机器人驱动、数据驱动的机器视觉工具,用于耕地土壤的氮诊断
  • 批准号:
    10091423
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Collaborative R&D
Tracking flood waters over Australia using space gravity data
使用空间重力数据跟踪澳大利亚的洪水
  • 批准号:
    DP240102399
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Discovery Projects
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了