CAREER: Data Valuation in the Wild: Theories, Algorithms, and Applications

职业:野外数据评估:理论、算法和应用

基本信息

项目摘要

Data are essential ingredients for building machine learning (ML) applications. The ability to quantify and measure the value of data is critical to the entire ML lifecycle: from identifying useful data sources, to setting propriety over samples during training, and to interpreting the reason why certain behaviors of a model emerge during deployment. The potential of data valuation has been observed in many applications over the past few years. However, intermixed with these positive results is a vast array of applications for which existing data valuation techniques are not yet applicable, or too expensive to execute, or produce valuation results with substantial uncertainty. This project aims to enable data valuation to overcome applicability, scalability, and reproducibility challenges and transition to a practical and reliable tool for a data-centric future. This work will have a broad impact on society in terms of facilitating automated data quality management, designing incentives for data sharing, and improving the robustness of ML applications. This project will train undergraduate students to solve ML problems from both an algorithmic and a data quality perspective, while in the meantime creating useful school-age learning modules implemented at local, regional, and global scales. The project consists of four research tasks to advance data valuation from different dimensions: 1) designing data valuation techniques that are robust to overcome the randomness in modern ML training algorithms; 2) developing new frameworks to determine the value of data samples given limited information about downstream learning tasks; 3) investigating principled methods to value heterogeneous and streaming data; and 4) creating and open-sourcing a unified multi-faceted evaluation platform to spur future advances in more complex data valuation. The proposed techniques are implemented and validated on a variety of high-impact real-world applications, including autonomous driving, energy-efficient buildings, and conversational artificial intelligence.This award reflects NSF's statutory mission and has been deemed worthy of support through evaluation using the Foundation's intellectual merit and broader impacts review criteria.
数据是构建机器学习(ML)应用程序的基本要素。量化和测量数据价值的能力对整个ML生命周期至关重要:从识别有用的数据源,到在训练期间设置样本的适当性,以及解释在部署期间出现模型某些行为的原因。在过去的几年里,数据估值的潜力在许多应用中都得到了观察。然而,与这些积极结果交织在一起的是大量应用程序,现有的数据估值技术尚不适用,或执行成本太高,或产生具有很大不确定性的估值结果。该项目旨在使数据评估能够克服适用性、可伸缩性和再现性方面的挑战,并过渡到以数据为中心的未来的实用和可靠的工具。这项工作将在促进自动化数据质量管理、设计数据共享激励机制以及提高ML应用程序的健壮性方面产生广泛的社会影响。该项目将培训本科生从算法和数据质量的角度解决ML问题,同时创建在当地、地区和全球范围内实施的有用的学龄儿童学习模块。该项目包括四个研究任务,从不同的维度推进数据评估:1)设计健壮的数据评估技术,以克服现代ML训练算法中的随机性;2)开发新的框架,在有关下游学习任务的有限信息下确定数据样本的价值;3)研究原则性方法来评估异质和流数据;以及4)创建和开源统一的多方面评估平台,以推动更复杂的数据评估的未来发展。建议的技术在各种高影响的现实世界应用中得到了实施和验证,包括自动驾驶、节能建筑和对话式人工智能。该奖项反映了NSF的法定使命,并通过使用基金会的智力优势和更广泛的影响审查标准进行评估,被认为值得支持。

项目成果

期刊论文数量(3)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
2D-Shapley: A Framework for Fragmented Data Valuation
  • DOI:
    10.48550/arxiv.2306.10473
  • 发表时间:
    2023-06
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Zhihong Liu;H. Just;Xiangyu Chang;X. Chen;R. Jia
  • 通讯作者:
    Zhihong Liu;H. Just;Xiangyu Chang;X. Chen;R. Jia
LAVA: Data Valuation without Pre-Specified Learning Algorithms
  • DOI:
    10.48550/arxiv.2305.00054
  • 发表时间:
    2023-04
  • 期刊:
  • 影响因子:
    0
  • 作者:
    H. Just;Feiyang Kang;Jiachen T. Wang;Yi Zeng;Myeongseob Ko;Ming Jin;R. Jia
  • 通讯作者:
    H. Just;Feiyang Kang;Jiachen T. Wang;Yi Zeng;Myeongseob Ko;Ming Jin;R. Jia
Data Banzhaf: A Robust Data Valuation Framework for Machine Learning
  • DOI:
  • 发表时间:
    2022-05
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Jiachen T. Wang;R. Jia
  • 通讯作者:
    Jiachen T. Wang;R. Jia
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Ruoxi Jia其他文献

Data Shapley in One Training Run
一次训练中的数据 Shapley
  • DOI:
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Jiachen T. Wang;Prateek Mittal;Dawn Song;Ruoxi Jia
  • 通讯作者:
    Ruoxi Jia
Efficient Data Shapley for Weighted Nearest Neighbor Algorithms
用于加权最近邻算法的高效数据 Shapley
  • DOI:
    10.48550/arxiv.2401.11103
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Jiachen T. Wang;Prateek Mittal;Ruoxi Jia
  • 通讯作者:
    Ruoxi Jia
One-Round Active Learning through Data Utility Learning and Proxy Models
通过数据效用学习和代理模型进行一轮主动学习
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Jiachen T. Wang;Si Chen;Ruoxi Jia;Virginia Tech;T. Jiachen;Wang
  • 通讯作者:
    Wang
BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models
BEEAR:基于嵌入的对抗性删除指令调整语言模型中的安全后门
  • DOI:
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Yi Zeng;Weiyu Sun;Tran Ngoc Huynh;Dawn Song;Bo Li;Ruoxi Jia
  • 通讯作者:
    Ruoxi Jia
AI Risk Categorization Decoded (AIR 2024): From Government Regulations to Corporate Policies
人工智能风险分类解读(AIR 2024):从政府法规到企业政策
  • DOI:
  • 发表时间:
    2024
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Yi Zeng;Kevin Klyman;Andy Zhou;Yu Yang;Minzhou Pan;Ruoxi Jia;Dawn Song;Percy Liang;Bo Li
  • 通讯作者:
    Bo Li

Ruoxi Jia的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Ruoxi Jia', 18)}}的其他基金

III: Medium: Towards Inclusive Recommendation Systems with Stakeholder Alignment
III:中:迈向利益相关者联盟的包容性推荐系统
  • 批准号:
    2312794
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Continuing Grant
Collaborative Research: RI: Small: Foundations of Few-Round Active Learning
协作研究:RI:小型:少轮主动学习的基础
  • 批准号:
    2313130
  • 财政年份:
    2023
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant

相似国自然基金

Scalable Learning and Optimization: High-dimensional Models and Online Decision-Making Strategies for Big Data Analysis
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    万元
  • 项目类别:
    合作创新研究团队
Data-driven Recommendation System Construction of an Online Medical Platform Based on the Fusion of Information
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    万元
  • 项目类别:
    外国青年学者研究基金项目
Development of a Linear Stochastic Model for Wind Field Reconstruction from Limited Measurement Data
  • 批准号:
  • 批准年份:
    2020
  • 资助金额:
    40 万元
  • 项目类别:
基于Linked Open Data的Web服务语义互操作关键技术
  • 批准号:
    61373035
  • 批准年份:
    2013
  • 资助金额:
    77.0 万元
  • 项目类别:
    面上项目
Molecular Interaction Reconstruction of Rheumatoid Arthritis Therapies Using Clinical Data
  • 批准号:
    31070748
  • 批准年份:
    2010
  • 资助金额:
    34.0 万元
  • 项目类别:
    面上项目
高维数据的函数型数据(functional data)分析方法
  • 批准号:
    11001084
  • 批准年份:
    2010
  • 资助金额:
    16.0 万元
  • 项目类别:
    青年科学基金项目
染色体复制负调控因子datA在细胞周期中的作用
  • 批准号:
    31060015
  • 批准年份:
    2010
  • 资助金额:
    25.0 万元
  • 项目类别:
    地区科学基金项目
Computational Methods for Analyzing Toponome Data
  • 批准号:
    60601030
  • 批准年份:
    2006
  • 资助金额:
    17.0 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Dark Data from the White Continent: New Light on Five Decades of Vertebrate Paleontology Collections from the Triassic Fremouw Formation of Antarctica
来自白色大陆的暗数据:对南极洲三叠纪 Fremouw 组的五个十年的脊椎动物古生物学收藏的新认识
  • 批准号:
    2313242
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
CAREER: Data-Enabled Neural Multi-Step Predictive Control (DeMuSPc): a Learning-Based Predictive and Adaptive Control Approach for Complex Nonlinear Systems
职业:数据支持的神经多步预测控制(DeMuSPc):一种用于复杂非线性系统的基于学习的预测和自适应控制方法
  • 批准号:
    2338749
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Collaborative Research: Constraining next generation Cascadia earthquake and tsunami hazard scenarios through integration of high-resolution field data and geophysical models
合作研究:通过集成高分辨率现场数据和地球物理模型来限制下一代卡斯卡迪亚地震和海啸灾害情景
  • 批准号:
    2325311
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
RII Track-4:@NASA: Wind-induced noise in the prospective seismic data measured in the Venusian surface environment
RII Track-4:@NASA:金星表面环境中测量的预期地震数据中的风致噪声
  • 批准号:
    2327422
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
RII Track-4:NSF: Physics-Informed Machine Learning with Organ-on-a-Chip Data for an In-Depth Understanding of Disease Progression and Drug Delivery Dynamics
RII Track-4:NSF:利用器官芯片数据进行物理信息机器学习,深入了解疾病进展和药物输送动力学
  • 批准号:
    2327473
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Collaborative Research: EAGER: IMPRESS-U: Groundwater Resilience Assessment through iNtegrated Data Exploration for Ukraine (GRANDE-U)
合作研究:EAGER:IMPRESS-U:通过乌克兰综合数据探索进行地下水恢复力评估 (GRANDE-U)
  • 批准号:
    2409395
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
I-Corps: Translation Potential of a Secure Data Platform Empowering Artificial Intelligence Assisted Digital Pathology
I-Corps:安全数据平台的翻译潜力,赋能人工智能辅助数字病理学
  • 批准号:
    2409130
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
EAGER: Integrating Pathological Image and Biomedical Text Data for Clinical Outcome Prediction
EAGER:整合病理图像和生物医学文本数据进行临床结果预测
  • 批准号:
    2412195
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
Research Infrastructure: CC* Data Storage: Foundational Campus Research Storage for Digital Transformation
研究基础设施:CC* 数据存储:数字化转型的基础校园研究存储
  • 批准号:
    2346636
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
CC* Networking Infrastructure: YinzerNet: A Multi-Site Data and AI Driven Research Network
CC* 网络基础设施:YinzerNet:多站点数据和人工智能驱动的研究网络
  • 批准号:
    2346707
  • 财政年份:
    2024
  • 资助金额:
    $ 50万
  • 项目类别:
    Standard Grant
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了