III: Small: RUI: Improving Data Quality and Data Mining Using Noisy Micro-Outsourcing
III:小:RUI:使用嘈杂的微外包提高数据质量和数据挖掘
基本信息
- 批准号:1115417
- 负责人:
- 金额:$ 26.06万
- 依托单位:
- 依托单位国家:美国
- 项目类别:Continuing Grant
- 财政年份:2011
- 资助国家:美国
- 起止时间:2011-08-01 至 2019-07-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
Machine learning currently offers one of the most cost-effective approaches to building predictive models (e.g., classifiers for categorizing the millions of messages, news articles, and blogs that are generated every day). However, the effective use of machine learning methods in such settings is limited by the availability of a training corpus (i.e., a representative set of instances that have been labeled with the correponding categories). In domains where labeled data are scarce or expensive to acquire, there is an urgent need for cost-effective approaches to selectively acquiring labels for data samples used to train predictive models using machine learning. This project explores novel techniques that take advantage of the low cost of micro-outsourcing using systems such as Amazon's mechanical Turk, to engage a large number of workers from around the world for acquiring the labels of instances to be used to construct the training corpus. There is currently little understanding of how to utilize the multiple noisy labels obtained using micro-outsourcing. There is a need for advanced techniques for taking advantage of the low cost of micro-outsourcing in order to improve data quality and the quality of models built from the available data. It explores novel approaches for utilizing multiple labels given to an instance by different labelers. It also extends active learning techniques for active selection of samples to be labeled to take into account the multi-sets of labels that have been already obtained from a pool of labelers. Advances in techniques for active selection of data instances to be labeled in a micro-outsourcing setting can significantly improve the quality of data used to build predictive models in a broad range of applications, including gene annotation, image annotation, text classification, sentiment analysis, and recommender systems, where unlabeled data are plentiful yet labeled data are sparse. The project will provide research opportunities for students at University of Central Arkansas, a primarily undergraduate institution and help expand the STEM pipeline. Additional information about the project can be found at: http://sun0.cs.uca.edu/~ssheng/.
机器学习目前提供了构建预测模型的最具成本效益的方法之一(例如,用于对每天生成的数百万条消息、新闻文章和博客进行分类的分类器)。然而,机器学习方法在这样的设置中的有效使用受到训练语料库的可用性的限制(即,已经用相应类别标记的代表性实例集)。 在标记数据稀缺或获取昂贵的领域,迫切需要具有成本效益的方法来选择性地获取用于使用机器学习训练预测模型的数据样本的标签。该项目探索了新的技术,利用微外包的低成本,使用亚马逊的mechanical Turk等系统,吸引来自世界各地的大量工人来获取用于构建训练语料库的实例标签。目前很少有人了解如何利用多个嘈杂的标签获得微外包。需要有先进的技术来利用微型外包的低成本,以提高数据质量和根据现有数据建立的模型的质量。它探索了利用不同标签器给一个实例的多个标签的新方法。它还扩展了主动学习技术,用于主动选择要标记的样本,以考虑已经从标记器池中获得的多组标记。在微外包环境中主动选择要标记的数据实例的技术的进步可以显着提高用于在广泛的应用中构建预测模型的数据的质量,包括基因注释,图像注释,文本分类,情感分析和推荐系统,其中未标记的数据是丰富的,但标记的数据是稀疏的。该项目将为中央阿肯色州大学的学生提供研究机会,这是一所主要的本科院校,并有助于扩大STEM管道。有关该项目的更多信息,请访问:http://sun0.cs.uca.edu/~ssheng/。
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
Victor Sheng其他文献
A Review of Publicly Patient-Centered Alzheimer’s disease datasets
以患者为中心的公开阿尔茨海默病数据集回顾
- DOI:
10.1109/csci54926.2021.00247 - 发表时间:
2021 - 期刊:
- 影响因子:0
- 作者:
Rui Wang;Chwan;Victor Sheng;Heng Wu;Zackery Toler;Samuel Temesgen - 通讯作者:
Samuel Temesgen
Victor Sheng的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('Victor Sheng', 18)}}的其他基金
NSF Student Travel Support for the 2020 IEEE International Conference on Data Mining (ICDM 2020)
NSF 学生参加 2020 年 IEEE 国际数据挖掘会议 (ICDM 2020) 的旅行支持
- 批准号:
2024072 - 财政年份:2020
- 资助金额:
$ 26.06万 - 项目类别:
Standard Grant
相似国自然基金
昼夜节律性small RNA在血斑形成时间推断中的法医学应用研究
- 批准号:
- 批准年份:2024
- 资助金额:0.0 万元
- 项目类别:省市级项目
tRNA-derived small RNA上调YBX1/CCL5通路参与硼替佐米诱导慢性疼痛的机制研究
- 批准号:n/a
- 批准年份:2022
- 资助金额:10.0 万元
- 项目类别:省市级项目
Small RNA调控I-F型CRISPR-Cas适应性免疫性的应答及分子机制
- 批准号:32000033
- 批准年份:2020
- 资助金额:24.0 万元
- 项目类别:青年科学基金项目
Small RNAs调控解淀粉芽胞杆菌FZB42生防功能的机制研究
- 批准号:31972324
- 批准年份:2019
- 资助金额:58.0 万元
- 项目类别:面上项目
变异链球菌small RNAs连接LuxS密度感应与生物膜形成的机制研究
- 批准号:81900988
- 批准年份:2019
- 资助金额:21.0 万元
- 项目类别:青年科学基金项目
肠道细菌关键small RNAs在克罗恩病发生发展中的功能和作用机制
- 批准号:31870821
- 批准年份:2018
- 资助金额:56.0 万元
- 项目类别:面上项目
基于small RNA 测序技术解析鸽分泌鸽乳的分子机制
- 批准号:31802058
- 批准年份:2018
- 资助金额:26.0 万元
- 项目类别:青年科学基金项目
Small RNA介导的DNA甲基化调控的水稻草矮病毒致病机制
- 批准号:31772128
- 批准年份:2017
- 资助金额:60.0 万元
- 项目类别:面上项目
基于small RNA-seq的针灸治疗桥本甲状腺炎的免疫调控机制研究
- 批准号:81704176
- 批准年份:2017
- 资助金额:20.0 万元
- 项目类别:青年科学基金项目
水稻OsSGS3与OsHEN1调控small RNAs合成及其对抗病性的调节
- 批准号:91640114
- 批准年份:2016
- 资助金额:85.0 万元
- 项目类别:重大研究计划
相似海外基金
III: Small: RUI: Designing Structure-Phenotype Query-Retrieval and Analysis Systems for Microscopy-Based Whole Organism Studies
III:小:RUI:为基于显微镜的整个生物体研究设计结构表型查询检索和分析系统
- 批准号:
2401096 - 财政年份:2023
- 资助金额:
$ 26.06万 - 项目类别:
Standard Grant
III: Small: RUI: A Fairness Auditing Framework for Predictive Mobility Models
III:小:RUI:预测移动模型的公平性审核框架
- 批准号:
2304213 - 财政年份:2023
- 资助金额:
$ 26.06万 - 项目类别:
Standard Grant
III: Small: RUI: Finding Best Representative Phylogenetic Tree Reconciliations
III:小:RUI:寻找最佳代表性系统发育树协调
- 批准号:
2231150 - 财政年份:2022
- 资助金额:
$ 26.06万 - 项目类别:
Standard Grant
III: Small: RUI: Collaborative Research: Modeling Pre- and Post- Conditions for Understanding Events
III:小:RUI:协作研究:为理解事件建模前后条件
- 批准号:
2007128 - 财政年份:2020
- 资助金额:
$ 26.06万 - 项目类别:
Interagency Agreement
III: Small: RUI: Investigating Fragmentation Rules and Improving Metabolite Identification Using Graph Grammar and Statistical Methods
III:小:RUI:使用图语法和统计方法研究断裂规则并改进代谢物识别
- 批准号:
2053286 - 财政年份:2020
- 资助金额:
$ 26.06万 - 项目类别:
Standard Grant
III: Small: RUI: Scalable and Iterative Statistical Testing of Multiple Hypotheses on Massive Datasets
III:小型:RUI:海量数据集上多个假设的可扩展和迭代统计检验
- 批准号:
2006765 - 财政年份:2020
- 资助金额:
$ 26.06万 - 项目类别:
Standard Grant
III: Small: RUI: Finding Best Representative Phylogenetic Tree Reconciliations
III:小:RUI:寻找最佳代表性系统发育树协调
- 批准号:
1905885 - 财政年份:2019
- 资助金额:
$ 26.06万 - 项目类别:
Standard Grant
III: Small: RUI: Investigating Fragmentation Rules and Improving Metabolite Identification Using Graph Grammar and Statistical Methods
III:小:RUI:使用图语法和统计方法研究断裂规则并改进代谢物识别
- 批准号:
1813252 - 财政年份:2019
- 资助金额:
$ 26.06万 - 项目类别:
Standard Grant
III: Small: RUI: Designing Structure-Phenotype Query-Retrieval and Analysis Systems for Microscopy-Based Whole Organism Studies
III:小:RUI:为基于显微镜的整个生物体研究设计结构表型查询检索和分析系统
- 批准号:
1817239 - 财政年份:2018
- 资助金额:
$ 26.06万 - 项目类别:
Standard Grant
III: Small: Collaborative Research: RUI: Scalable Schema-Based Event Extraction
III:小型:协作研究:RUI:可扩展的基于模式的事件提取
- 批准号:
1617952 - 财政年份:2016
- 资助金额:
$ 26.06万 - 项目类别:
Interagency Agreement