CAREER: Data Valuation in the Wild: Theories, Algorithms, and Applications

职业:野外数据评估:理论、算法和应用

基本信息

项目摘要

Data are essential ingredients for building machine learning (ML) applications. The ability to quantify and measure the value of data is critical to the entire ML lifecycle: from identifying useful data sources, to setting propriety over samples during training, and to interpreting the reason why certain behaviors of a model emerge during deployment. The potential of data valuation has been observed in many applications over the past few years. However, intermixed with these positive results is a vast array of applications for which existing data valuation techniques are not yet applicable, or too expensive to execute, or produce valuation results with substantial uncertainty. This project aims to enable data valuation to overcome applicability, scalability, and reproducibility challenges and transition to a practical and reliable tool for a data-centric future. This work will have a broad impact on society in terms of facilitating automated data quality management, designing incentives for data sharing, and improving the robustness of ML applications. This project will train undergraduate students to solve ML problems from both an algorithmic and a data quality perspective, while in the meantime creating useful school-age learning modules implemented at local, regional, and global scales. The project consists of four research tasks to advance data valuation from different dimensions: 1) designing data valuation techniques that are robust to overcome the randomness in modern ML training algorithms; 2) developing new frameworks to determine the value of data samples given limited information about downstream learning tasks; 3) investigating principled methods to value heterogeneous and streaming data; and 4) creating and open-sourcing a unified multi-faceted evaluation platform to spur future advances in more complex data valuation. The proposed techniques are implemented and validated on a variety of high-impact real-world applications, including autonomous driving, energy-efficient buildings, and conversational artificial intelligence.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
数据是构建机器学习 (ML) 应用程序的重要组成部分。量化和衡量数据价值的能力对于整个机器学习生命周期至关重要:从识别有用的数据源,到在训练期间设置样本的适当性,再到解释模型在部署期间出现某些行为的原因。过去几年,数据评估的潜力已在许多应用中被观察到。然而,与这些积极结果混合在一起的是大量现有数据评估技术尚不适用的应用,或者执行成本太高,或者产生具有很大不确定性的评估结果。该项目旨在使数据评估能够克服适用性、可扩展性和可重复性挑战,并过渡到以数据为中心的未来的实用可靠的工具。这项工作将在促进自动化数据质量管理、设计数据共享激励措施以及提高机器学习应用程序的稳健性方面对社会产生广泛影响。该项目将培训本科生从算法和数据质量的角度解决机器学习问题,同时创建在本地、区域和全球范围内实施的有用的学龄学习模块。该项目包含四项研究任务,从不同维度推进数据评估:1)设计稳健的数据评估技术,克服现代机器学习训练算法中的随机性; 2)开发新的框架,在给定有关下游学习任务的有限信息的情况下确定数据样本的价值; 3)研究评估异构数据和流数据的原则方法; 4) 创建并开源一个统一的多方面评估平台,以促进更复杂的数据评估的未来进步。所提出的技术在各种高影响力的现实世界应用中得到实施和验证,包括自动驾驶、节能建筑和会话人工智能。该奖项反映了 NSF 的法定使命,并通过使用基金会的智力价值和更广泛的影响审查标准进行评估,被认为值得支持。

项目成果

期刊论文数量(3)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
2D-Shapley: A Framework for Fragmented Data Valuation
  • DOI:
    10.48550/arxiv.2306.10473
  • 发表时间:
    2023-06
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Zhihong Liu;H. Just;Xiangyu Chang;X. Chen;R. Jia
  • 通讯作者:
    Zhihong Liu;H. Just;Xiangyu Chang;X. Chen;R. Jia
LAVA: Data Valuation without Pre-Specified Learning Algorithms
  • DOI:
    10.48550/arxiv.2305.00054
  • 发表时间:
    2023-04
  • 期刊:
  • 影响因子:
    0
  • 作者:
    H. Just;Feiyang Kang;Jiachen T. Wang;Yi Zeng;Myeongseob Ko;Ming Jin;R. Jia
  • 通讯作者:
    H. Just;Feiyang Kang;Jiachen T. Wang;Yi Zeng;Myeongseob Ko;Ming Jin;R. Jia
Data Banzhaf: A Robust Data Valuation Framework for Machine Learning
  • DOI:
  • 发表时间:
    2022-05
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Jiachen T. Wang;R. Jia
  • 通讯作者:
    Jiachen T. Wang;R. Jia
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Ruoxi Jia其他文献

Data Shapley in One Training Run
一次训练中的数据 Shapley
  • DOI:
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Jiachen T. Wang;Prateek Mittal;Dawn Song;Ruoxi Jia
  • 通讯作者:
    Ruoxi Jia
Efficient Data Shapley for Weighted Nearest Neighbor Algorithms
用于加权最近邻算法的高效数据 Shapley
  • DOI:
    10.48550/arxiv.2401.11103
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Jiachen T. Wang;Prateek Mittal;Ruoxi Jia
  • 通讯作者:
    Ruoxi Jia
One-Round Active Learning through Data Utility Learning and Proxy Models
通过数据效用学习和代理模型进行一轮主动学习
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Jiachen T. Wang;Si Chen;Ruoxi Jia;Virginia Tech;T. Jiachen;Wang
  • 通讯作者:
    Wang
BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models
BEEAR:基于嵌入的对抗性删除指令调整语言模型中的安全后门
  • DOI:
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Yi Zeng;Weiyu Sun;Tran Ngoc Huynh;Dawn Song;Bo Li;Ruoxi Jia
  • 通讯作者:
    Ruoxi Jia
AI Risk Categorization Decoded (AIR 2024): From Government Regulations to Corporate Policies
人工智能风险分类解读(AIR 2024):从政府法规到企业政策
  • DOI:
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Yi Zeng;Kevin Klyman;Andy Zhou;Yu Yang;Minzhou Pan;Ruoxi Jia;Dawn Song;Percy Liang;Bo Li
  • 通讯作者:
    Bo Li

Ruoxi Jia的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Ruoxi Jia', 18)}}的其他基金

III: Medium: Towards Inclusive Recommendation Systems with Stakeholder Alignment
III:中:迈向利益相关者联盟的包容性推荐系统
  • 批准号:
    2312794
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
Collaborative Research: RI: Small: Foundations of Few-Round Active Learning
协作研究:RI:小型:少轮主动学习的基础
  • 批准号:
    2313130
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant

相似国自然基金

Scalable Learning and Optimization: High-dimensional Models and Online Decision-Making Strategies for Big Data Analysis
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    万元
  • 项目类别:
    合作创新研究团队
Data-driven Recommendation System Construction of an Online Medical Platform Based on the Fusion of Information
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    万元
  • 项目类别:
    外国青年学者研究基金项目
Development of a Linear Stochastic Model for Wind Field Reconstruction from Limited Measurement Data
  • 批准号:
  • 批准年份:
    2020
  • 资助金额:
    40 万元
  • 项目类别:
基于Linked Open Data的Web服务语义互操作关键技术
  • 批准号:
    61373035
  • 批准年份:
    2013
  • 资助金额:
    77.0 万元
  • 项目类别:
    面上项目
Molecular Interaction Reconstruction of Rheumatoid Arthritis Therapies Using Clinical Data
  • 批准号:
    31070748
  • 批准年份:
    2010
  • 资助金额:
    34.0 万元
  • 项目类别:
    面上项目
高维数据的函数型数据(functional data)分析方法
  • 批准号:
    11001084
  • 批准年份:
    2010
  • 资助金额:
    16.0 万元
  • 项目类别:
    青年科学基金项目
染色体复制负调控因子datA在细胞周期中的作用
  • 批准号:
    31060015
  • 批准年份:
    2010
  • 资助金额:
    25.0 万元
  • 项目类别:
    地区科学基金项目
Computational Methods for Analyzing Toponome Data
  • 批准号:
    60601030
  • 批准年份:
    2006
  • 资助金额:
    17.0 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Dark Data from the White Continent: New Light on Five Decades of Vertebrate Paleontology Collections from the Triassic Fremouw Formation of Antarctica
来自白色大陆的暗数据:对南极洲三叠纪 Fremouw 组的五个十年的脊椎动物古生物学收藏的新认识
  • 批准号:
    2313242
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
CAREER: Data-Enabled Neural Multi-Step Predictive Control (DeMuSPc): a Learning-Based Predictive and Adaptive Control Approach for Complex Nonlinear Systems
职业:数据支持的神经多步预测控制(DeMuSPc):一种用于复杂非线性系统的基于学习的预测和自适应控制方法
  • 批准号:
    2338749
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Collaborative Research: Constraining next generation Cascadia earthquake and tsunami hazard scenarios through integration of high-resolution field data and geophysical models
合作研究:通过集成高分辨率现场数据和地球物理模型来限制下一代卡斯卡迪亚地震和海啸灾害情景
  • 批准号:
    2325311
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
RII Track-4:@NASA: Wind-induced noise in the prospective seismic data measured in the Venusian surface environment
RII Track-4:@NASA:金星表面环境中测量的预期地震数据中的风致噪声
  • 批准号:
    2327422
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
RII Track-4:NSF: Physics-Informed Machine Learning with Organ-on-a-Chip Data for an In-Depth Understanding of Disease Progression and Drug Delivery Dynamics
RII Track-4:NSF:利用器官芯片数据进行物理信息机器学习,深入了解疾病进展和药物输送动力学
  • 批准号:
    2327473
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Collaborative Research: EAGER: IMPRESS-U: Groundwater Resilience Assessment through iNtegrated Data Exploration for Ukraine (GRANDE-U)
合作研究:EAGER:IMPRESS-U:通过乌克兰综合数据探索进行地下水恢复力评估 (GRANDE-U)
  • 批准号:
    2409395
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
I-Corps: Translation Potential of a Secure Data Platform Empowering Artificial Intelligence Assisted Digital Pathology
I-Corps:安全数据平台的翻译潜力,赋能人工智能辅助数字病理学
  • 批准号:
    2409130
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
EAGER: Integrating Pathological Image and Biomedical Text Data for Clinical Outcome Prediction
EAGER:整合病理图像和生物医学文本数据进行临床结果预测
  • 批准号:
    2412195
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Research Infrastructure: CC* Data Storage: Foundational Campus Research Storage for Digital Transformation
研究基础设施:CC* 数据存储:数字化转型的基础校园研究存储
  • 批准号:
    2346636
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
CC* Networking Infrastructure: YinzerNet: A Multi-Site Data and AI Driven Research Network
CC* 网络基础设施:YinzerNet:多站点数据和人工智能驱动的研究网络
  • 批准号:
    2346707
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了