Crowdsourced Data Cleaning

众包数据清理

基本信息

  • 批准号:
    RGPIN-2016-05555
  • 负责人:
  • 金额:
    $ 2.62万
  • 依托单位:
  • 依托单位国家:
    加拿大
  • 项目类别:
    Discovery Grants Program - Individual
  • 财政年份:
    2020
  • 资助国家:
    加拿大
  • 起止时间:
    2020-01-01 至 2021-12-31
  • 项目状态:
    已结题

项目摘要

Data cleaning is the process of detecting and correcting dirty (inconsistent, inaccurate, or incomplete) values from a database. Real-world data is often dirty. Analyses without data cleaning can be very risky, which may result in poor decision-making, and have a significant negative impact on applications. For example, in 2014, Statistics Canada under-reported the country's job creation in July by more than 41000, based on an analysis of dirty data. This news was reported by hundreds of TV and Internet Media outlets around the world, resulting in various negative effects on Canada. Although there has already been a long line of work on machine-based data cleaning techniques, many cleaning tasks are too challenging for machine only solutions. Recently, the advance of crowdsourcing techniques and platforms (e.g., Amazon Mechanical Turk) provides a highly promising way to involve humans and computers in solving complex problems at low cost. In view of this great opportunity, this proposal will study crowdsourced data cleaning, intelligently combining humans and computers to address challenging data-cleaning problem. This work will not only open up a new research area in the database field, but also benefit a lot of other scientific fields, such as library science or sociology, which often require to conduct data analysis on real-world datasets. Furthermore, with the rise of big data, the world is moving towards a more data-driven environment. Data cleaning has long been considered as a bottleneck for extracting value from data. Crowdsourced data cleaning, which has the potential of significantly improving data quality at low cleaning cost, will have an increasing number of applications in this new environment, such as cleaning customer information for reliable market analysis, and cleaning patients' medical history for accurate disease diagnosis.
数据清理是从数据库中检测和纠正脏(不一致,不准确或不完整)值的过程。真实世界的数据往往是肮脏的。没有数据清理的分析可能非常危险,可能导致决策失误,并对应用程序产生重大负面影响。例如,2014年,加拿大统计局根据对肮脏数据的分析,少报了该国7月份创造的就业机会超过4.1万个。这一消息被世界各地数百家电视和网络媒体报道,对加拿大造成了各种负面影响。 尽管基于机器的数据清理技术已经有很长一段时间的工作,但许多清理任务对于仅使用机器的解决方案来说太具有挑战性了。最近,众包技术和平台的进步(例如,Amazon Mechanical Turk)提供了一种非常有前途的方式,让人类和计算机以低成本解决复杂问题。鉴于这个巨大的机会,该提案将研究众包数据清理,智能地将人类和计算机结合起来,以解决具有挑战性的数据清理问题。 这项工作不仅将在数据库领域开辟一个新的研究领域,而且还将有益于许多其他科学领域,如图书馆学或社会学,这些领域通常需要对真实世界的数据集进行数据分析。此外,随着大数据的兴起,世界正在走向一个更加数据驱动的环境。数据清洗一直被认为是从数据中提取价值的瓶颈。众包数据清理有可能以较低的清理成本显著提高数据质量,在这种新环境中将有越来越多的应用,例如清理客户信息以进行可靠的市场分析,清理患者的病史以进行准确的疾病诊断。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Wang, Jiannan其他文献

太阳能塔式热发电站熔融盐吸热器过热故障的影响因素分析
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
    Wang, Jiannan;Li, Xin;Chang, Chun
  • 通讯作者:
    Chang, Chun
Optimization of Material for Key Components and Parameters of Peanut Sheller Based on Hertz Theory and Box-Behnken Design
  • DOI:
    10.3390/agriculture12020146
  • 发表时间:
    2022-02-01
  • 期刊:
  • 影响因子:
    3.6
  • 作者:
    Wang, Jiannan;Xie, Huanxiong;Ma, Chenbin
  • 通讯作者:
    Ma, Chenbin
Motility and function of smooth muscle cells in a silk small-caliber tubular scaffold after replacement of rabbit common carotid artery
Steady-State Behavior and Endothelialization of a Silk-Based Small-Caliber Scaffold In Vivo Transplantation
丝基小口径支架体内移植的稳态行为和内皮化
  • DOI:
    10.3390/polym11081303
  • 发表时间:
    2019-08-01
  • 期刊:
  • 影响因子:
    5
  • 作者:
    Li, Helei;Wang, Yining;Wang, Jiannan
  • 通讯作者:
    Wang, Jiannan
Cytocompatibility of a silk fibroin tubular scaffold
丝素蛋白管状支架的细胞相容性

Wang, Jiannan的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Wang, Jiannan', 18)}}的其他基金

DataPrep: Human-in-the-Loop Data Preparation
DataPrep:人在环数据准备
  • 批准号:
    RGPIN-2021-03995
  • 财政年份:
    2022
  • 资助金额:
    $ 2.62万
  • 项目类别:
    Discovery Grants Program - Individual
DataPrep: Human-in-the-Loop Data Preparation
DataPrep:人在环数据准备
  • 批准号:
    RGPIN-2021-03995
  • 财政年份:
    2021
  • 资助金额:
    $ 2.62万
  • 项目类别:
    Discovery Grants Program - Individual
Entity augmentation and data cleaning for machine learning
用于机器学习的实体增强和数据清理
  • 批准号:
    508081-2016
  • 财政年份:
    2019
  • 资助金额:
    $ 2.62万
  • 项目类别:
    Collaborative Research and Development Grants
Crowdsourced Data Cleaning
众包数据清理
  • 批准号:
    RGPIN-2016-05555
  • 财政年份:
    2019
  • 资助金额:
    $ 2.62万
  • 项目类别:
    Discovery Grants Program - Individual
Entity augmentation and data cleaning for machine learning
用于机器学习的实体增强和数据清理
  • 批准号:
    508081-2016
  • 财政年份:
    2018
  • 资助金额:
    $ 2.62万
  • 项目类别:
    Collaborative Research and Development Grants
Crowdsourced Data Cleaning
众包数据清理
  • 批准号:
    RGPIN-2016-05555
  • 财政年份:
    2018
  • 资助金额:
    $ 2.62万
  • 项目类别:
    Discovery Grants Program - Individual
Approximate Query Processing over Secure Key/Value Stores
通过安全键/值存储进行近似查询处理
  • 批准号:
    517430-2017
  • 财政年份:
    2017
  • 资助金额:
    $ 2.62万
  • 项目类别:
    Engage Grants Program
Crowdsourced Data Cleaning
众包数据清理
  • 批准号:
    RGPIN-2016-05555
  • 财政年份:
    2017
  • 资助金额:
    $ 2.62万
  • 项目类别:
    Discovery Grants Program - Individual
Entity augmentation and data cleaning for machine learning
用于机器学习的实体增强和数据清理
  • 批准号:
    508081-2016
  • 财政年份:
    2017
  • 资助金额:
    $ 2.62万
  • 项目类别:
    Collaborative Research and Development Grants
A unified access server for SQL-on-Hadoop systems
SQL-on-Hadoop系统的统一访问服务器
  • 批准号:
    501015-2016
  • 财政年份:
    2016
  • 资助金额:
    $ 2.62万
  • 项目类别:
    Engage Grants Program

相似国自然基金

Scalable Learning and Optimization: High-dimensional Models and Online Decision-Making Strategies for Big Data Analysis
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    万元
  • 项目类别:
    合作创新研究团队
Data-driven Recommendation System Construction of an Online Medical Platform Based on the Fusion of Information
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    万元
  • 项目类别:
    外国青年学者研究基金项目
Development of a Linear Stochastic Model for Wind Field Reconstruction from Limited Measurement Data
  • 批准号:
  • 批准年份:
    2020
  • 资助金额:
    40 万元
  • 项目类别:
基于Linked Open Data的Web服务语义互操作关键技术
  • 批准号:
    61373035
  • 批准年份:
    2013
  • 资助金额:
    77.0 万元
  • 项目类别:
    面上项目
Molecular Interaction Reconstruction of Rheumatoid Arthritis Therapies Using Clinical Data
  • 批准号:
    31070748
  • 批准年份:
    2010
  • 资助金额:
    34.0 万元
  • 项目类别:
    面上项目
高维数据的函数型数据(functional data)分析方法
  • 批准号:
    11001084
  • 批准年份:
    2010
  • 资助金额:
    16.0 万元
  • 项目类别:
    青年科学基金项目
染色体复制负调控因子datA在细胞周期中的作用
  • 批准号:
    31060015
  • 批准年份:
    2010
  • 资助金额:
    25.0 万元
  • 项目类别:
    地区科学基金项目
Computational Methods for Analyzing Toponome Data
  • 批准号:
    60601030
  • 批准年份:
    2006
  • 资助金额:
    17.0 万元
  • 项目类别:
    青年科学基金项目

相似海外基金

Data Collection, Linkages, Cleaning and Sharing Core
数据采集​​、联动、清洗、共享核心
  • 批准号:
    10774555
  • 财政年份:
    2023
  • 资助金额:
    $ 2.62万
  • 项目类别:
NSERC/Thomson Reuters Industrial Research Chair in Data Cleaning
NSERC/汤森路透数据清理工业研究主席
  • 批准号:
    534011-2017
  • 财政年份:
    2022
  • 资助金额:
    $ 2.62万
  • 项目类别:
    Industrial Research Chairs
Scalable Cleaning, Integration and Analysis of Structured and Semi-Structured Inconsistent Data
结构化和半结构化不一致数据的可扩展清理、集成和分析
  • 批准号:
    RGPIN-2019-04068
  • 财政年份:
    2022
  • 资助金额:
    $ 2.62万
  • 项目类别:
    Discovery Grants Program - Individual
Fully-automated AI-driven data-cleaning for insurance property spreadsheets that will save 50% cost and significantly improve accuracy
全自动%20AI驱动%20数据清理%20for%20insurance%20property%20spreadsheets%20that%20will%20save%2050%%20cost%20and%20显着%20提高%20准确性
  • 批准号:
    10024116
  • 财政年份:
    2022
  • 资助金额:
    $ 2.62万
  • 项目类别:
    Collaborative R&D
Scalable Cleaning, Integration and Analysis of Structured and Semi-Structured Inconsistent Data
结构化和半结构化不一致数据的可扩展清理、集成和分析
  • 批准号:
    RGPIN-2019-04068
  • 财政年份:
    2021
  • 资助金额:
    $ 2.62万
  • 项目类别:
    Discovery Grants Program - Individual
NSERC/Thomson Reuters Industrial Research Chair in Data Cleaning
NSERC/汤森路透数据清理工业研究主席
  • 批准号:
    534011-2017
  • 财政年份:
    2021
  • 资助金额:
    $ 2.62万
  • 项目类别:
    Industrial Research Chairs
NSERC/Thomson Reuters Industrial Research Chair in Data Cleaning
NSERC/汤森路透数据清理工业研究主席
  • 批准号:
    534011-2017
  • 财政年份:
    2020
  • 资助金额:
    $ 2.62万
  • 项目类别:
    Industrial Research Chairs
Scalable Cleaning, Integration and Analysis of Structured and Semi-Structured Inconsistent Data
结构化和半结构化不一致数据的可扩展清理、集成和分析
  • 批准号:
    RGPIN-2019-04068
  • 财政年份:
    2020
  • 资助金额:
    $ 2.62万
  • 项目类别:
    Discovery Grants Program - Individual
Entity augmentation and data cleaning for machine learning
用于机器学习的实体增强和数据清理
  • 批准号:
    508081-2016
  • 财政年份:
    2019
  • 资助金额:
    $ 2.62万
  • 项目类别:
    Collaborative Research and Development Grants
Scalable Cleaning, Integration and Analysis of Structured and Semi-Structured Inconsistent Data
结构化和半结构化不一致数据的可扩展清理、集成和分析
  • 批准号:
    RGPIN-2019-04068
  • 财政年份:
    2019
  • 资助金额:
    $ 2.62万
  • 项目类别:
    Discovery Grants Program - Individual
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了