CAREER: Data Valuation in the Wild: Theories, Algorithms, and Applications

职业:野外数据评估:理论、算法和应用

基本信息

项目摘要

Data are essential ingredients for building machine learning (ML) applications. The ability to quantify and measure the value of data is critical to the entire ML lifecycle: from identifying useful data sources, to setting propriety over samples during training, and to interpreting the reason why certain behaviors of a model emerge during deployment. The potential of data valuation has been observed in many applications over the past few years. However, intermixed with these positive results is a vast array of applications for which existing data valuation techniques are not yet applicable, or too expensive to execute, or produce valuation results with substantial uncertainty. This project aims to enable data valuation to overcome applicability, scalability, and reproducibility challenges and transition to a practical and reliable tool for a data-centric future. This work will have a broad impact on society in terms of facilitating automated data quality management, designing incentives for data sharing, and improving the robustness of ML applications. This project will train undergraduate students to solve ML problems from both an algorithmic and a data quality perspective, while in the meantime creating useful school-age learning modules implemented at local, regional, and global scales. The project consists of four research tasks to advance data valuation from different dimensions: 1) designing data valuation techniques that are robust to overcome the randomness in modern ML training algorithms; 2) developing new frameworks to determine the value of data samples given limited information about downstream learning tasks; 3) investigating principled methods to value heterogeneous and streaming data; and 4) creating and open-sourcing a unified multi-faceted evaluation platform to spur future advances in more complex data valuation. The proposed techniques are implemented and validated on a variety of high-impact real-world applications, including autonomous driving, energy-efficient buildings, and conversational artificial intelligence.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
数据是构建机器学习(ML)应用程序的基本要素。量化和衡量数据价值的能力对整个机器学习生命周期至关重要:从识别有用的数据源,到在训练期间对样本进行适当设置,以及解释在部署期间出现模型某些行为的原因。在过去几年中,在许多应用中已经观察到数据估值的潜力。然而,与这些积极的结果混杂在一起的是大量的应用,现有的数据评估技术还不适用,或者执行起来太昂贵,或者产生的评估结果具有很大的不确定性。该项目旨在使数据评估能够克服适用性、可扩展性和可再现性方面的挑战,并向以数据为中心的未来的实用可靠工具过渡。这项工作将在促进自动化数据质量管理、设计数据共享激励和提高机器学习应用程序的鲁棒性方面对社会产生广泛的影响。该项目将训练本科生从算法和数据质量的角度解决机器学习问题,同时创建有用的学龄学习模块,在本地、区域和全球范围内实施。该项目包括四个研究任务,从不同的维度推进数据评估:1)设计具有鲁棒性的数据评估技术,以克服现代机器学习训练算法中的随机性;2)在有限的下游学习任务信息下,开发新的框架来确定数据样本的价值;3)研究评估异构和流数据的原则方法;4)创建并开源一个统一的多方面评估平台,以促进未来更复杂的数据评估的发展。所提出的技术在各种高影响力的现实应用中得到了实施和验证,包括自动驾驶、节能建筑和会话人工智能。该奖项反映了美国国家科学基金会的法定使命,并通过使用基金会的知识价值和更广泛的影响审查标准进行评估,被认为值得支持。

项目成果

期刊论文数量(3)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
2D-Shapley: A Framework for Fragmented Data Valuation
  • DOI:
    10.48550/arxiv.2306.10473
  • 发表时间:
    2023-06
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Zhihong Liu;H. Just;Xiangyu Chang;X. Chen;R. Jia
  • 通讯作者:
    Zhihong Liu;H. Just;Xiangyu Chang;X. Chen;R. Jia
LAVA: Data Valuation without Pre-Specified Learning Algorithms
  • DOI:
    10.48550/arxiv.2305.00054
  • 发表时间:
    2023-04
  • 期刊:
  • 影响因子:
    0
  • 作者:
    H. Just;Feiyang Kang;Jiachen T. Wang;Yi Zeng;Myeongseob Ko;Ming Jin;R. Jia
  • 通讯作者:
    H. Just;Feiyang Kang;Jiachen T. Wang;Yi Zeng;Myeongseob Ko;Ming Jin;R. Jia
Data Banzhaf: A Robust Data Valuation Framework for Machine Learning
  • DOI:
  • 发表时间:
    2022-05
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Jiachen T. Wang;R. Jia
  • 通讯作者:
    Jiachen T. Wang;R. Jia
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Ruoxi Jia其他文献

Data Shapley in One Training Run
一次训练中的数据 Shapley
  • DOI:
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Jiachen T. Wang;Prateek Mittal;Dawn Song;Ruoxi Jia
  • 通讯作者:
    Ruoxi Jia
Efficient Data Shapley for Weighted Nearest Neighbor Algorithms
用于加权最近邻算法的高效数据 Shapley
  • DOI:
    10.48550/arxiv.2401.11103
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Jiachen T. Wang;Prateek Mittal;Ruoxi Jia
  • 通讯作者:
    Ruoxi Jia
One-Round Active Learning through Data Utility Learning and Proxy Models
通过数据效用学习和代理模型进行一轮主动学习
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Jiachen T. Wang;Si Chen;Ruoxi Jia;Virginia Tech;T. Jiachen;Wang
  • 通讯作者:
    Wang
BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models
BEEAR:基于嵌入的对抗性删除指令调整语言模型中的安全后门
  • DOI:
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Yi Zeng;Weiyu Sun;Tran Ngoc Huynh;Dawn Song;Bo Li;Ruoxi Jia
  • 通讯作者:
    Ruoxi Jia
AI Risk Categorization Decoded (AIR 2024): From Government Regulations to Corporate Policies
人工智能风险分类解读(AIR 2024):从政府法规到企业政策
  • DOI:
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Yi Zeng;Kevin Klyman;Andy Zhou;Yu Yang;Minzhou Pan;Ruoxi Jia;Dawn Song;Percy Liang;Bo Li
  • 通讯作者:
    Bo Li

Ruoxi Jia的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Ruoxi Jia', 18)}}的其他基金

III: Medium: Towards Inclusive Recommendation Systems with Stakeholder Alignment
III:中:迈向利益相关者联盟的包容性推荐系统
  • 批准号:
    2312794
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
Collaborative Research: RI: Small: Foundations of Few-Round Active Learning
协作研究:RI:小型:少轮主动学习的基础
  • 批准号:
    2313130
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant

相似国自然基金

Scalable Learning and Optimization: High-dimensional Models and Online Decision-Making Strategies for Big Data Analysis
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    万元
  • 项目类别:
    合作创新研究团队
Data-driven Recommendation System Construction of an Online Medical Platform Based on the Fusion of Information
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    万元
  • 项目类别:
    外国青年学者研究基金项目
Development of a Linear Stochastic Model for Wind Field Reconstruction from Limited Measurement Data
  • 批准号:
  • 批准年份:
    2020
  • 资助金额:
    40 万元
  • 项目类别:
基于Linked Open Data的Web服务语义互操作关键技术
  • 批准号:
    61373035
  • 批准年份:
    2013
  • 资助金额:
    77.0 万元
  • 项目类别:
    面上项目
Molecular Interaction Reconstruction of Rheumatoid Arthritis Therapies Using Clinical Data
  • 批准号:
    31070748
  • 批准年份:
    2010
  • 资助金额:
    34.0 万元
  • 项目类别:
    面上项目
高维数据的函数型数据(functional data)分析方法
  • 批准号:
    11001084
  • 批准年份:
    2010
  • 资助金额:
    16.0 万元
  • 项目类别:
    青年科学基金项目
染色体复制负调控因子datA在细胞周期中的作用
  • 批准号:
    31060015
  • 批准年份:
    2010
  • 资助金额:
    25.0 万元
  • 项目类别:
    地区科学基金项目
Computational Methods for Analyzing Toponome Data
  • 批准号:
    60601030
  • 批准年份:
    2006
  • 资助金额:
    17.0 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Dark Data from the White Continent: New Light on Five Decades of Vertebrate Paleontology Collections from the Triassic Fremouw Formation of Antarctica
来自白色大陆的暗数据:对南极洲三叠纪 Fremouw 组的五个十年的脊椎动物古生物学收藏的新认识
  • 批准号:
    2313242
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
CAREER: Data-Enabled Neural Multi-Step Predictive Control (DeMuSPc): a Learning-Based Predictive and Adaptive Control Approach for Complex Nonlinear Systems
职业:数据支持的神经多步预测控制(DeMuSPc):一种用于复杂非线性系统的基于学习的预测和自适应控制方法
  • 批准号:
    2338749
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Collaborative Research: Constraining next generation Cascadia earthquake and tsunami hazard scenarios through integration of high-resolution field data and geophysical models
合作研究:通过集成高分辨率现场数据和地球物理模型来限制下一代卡斯卡迪亚地震和海啸灾害情景
  • 批准号:
    2325311
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
RII Track-4:@NASA: Wind-induced noise in the prospective seismic data measured in the Venusian surface environment
RII Track-4:@NASA:金星表面环境中测量的预期地震数据中的风致噪声
  • 批准号:
    2327422
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
RII Track-4:NSF: Physics-Informed Machine Learning with Organ-on-a-Chip Data for an In-Depth Understanding of Disease Progression and Drug Delivery Dynamics
RII Track-4:NSF:利用器官芯片数据进行物理信息机器学习,深入了解疾病进展和药物输送动力学
  • 批准号:
    2327473
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Collaborative Research: EAGER: IMPRESS-U: Groundwater Resilience Assessment through iNtegrated Data Exploration for Ukraine (GRANDE-U)
合作研究:EAGER:IMPRESS-U:通过乌克兰综合数据探索进行地下水恢复力评估 (GRANDE-U)
  • 批准号:
    2409395
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
I-Corps: Translation Potential of a Secure Data Platform Empowering Artificial Intelligence Assisted Digital Pathology
I-Corps:安全数据平台的翻译潜力,赋能人工智能辅助数字病理学
  • 批准号:
    2409130
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
EAGER: Integrating Pathological Image and Biomedical Text Data for Clinical Outcome Prediction
EAGER:整合病理图像和生物医学文本数据进行临床结果预测
  • 批准号:
    2412195
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Research Infrastructure: CC* Data Storage: Foundational Campus Research Storage for Digital Transformation
研究基础设施:CC* 数据存储:数字化转型的基础校园研究存储
  • 批准号:
    2346636
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
CC* Networking Infrastructure: YinzerNet: A Multi-Site Data and AI Driven Research Network
CC* 网络基础设施:YinzerNet:多站点数据和人工智能驱动的研究网络
  • 批准号:
    2346707
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了