课题基金基金详情
众包数据库的基础理论与关键技术研究
结题报告
批准号:
61632016
项目类别:
重点项目
资助金额:
280.0 万元
负责人:
李国良
依托单位:
学科分类:
F0202.系统软件、数据库与工业软件
结题年份:
2021
批准年份:
2016
项目状态:
已结题
项目参与者:
周立柱、冯建华、李建、范举、卢卫、李直旭、刘安
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
客服二维码
微信扫码咨询
中文摘要
现有众包研究一般都是从应用层角度出发,通过调用众包平台的底层接口,逐个解决特定的众包应用问题(例如实体识别),而缺少一个高层的管理系统来统一支持不同的众包应用。众包数据库系统(简称众包数据库)就是为了解决通用的众包问题而提出的研究,因此类似于提出数据库系统来替代传统文件系统的研究。众包数据库面临三个挑战: (1)缺乏众包计算的可度量模型来刻画众包工人的计算特点; (2)缺少众包计算的可控理论来控制众包计算的质量、代价和延迟; (3)缺少众包计算的可优化理论来指导众包算法的优化设计。为了解决这些挑战,项目凝练的关键科学问题是众包计算的可度量、可控制、可优化问题。研究内容包括: (1)众包数据库基础理论; (2)众包数据库算子设计; (3)众包数据库查询优化; (4)众包数据库查询接口。最终建立众包数据库的基础理论,突破关键技术,研制众包数据库系统,取得国际领先的研究成果,培养若干高水平人才。
英文摘要
Crowdsourcing is a new computing model, which utilizes the wisdom of the crowd to address the data management and analytics tasks that cannot be completely addressed by automated processes. However existing works studied the crowdsourcing problems cases by cases from the application level. There is lack of studies from the system level that devise efficient crowdsourced databases to help requesters manage their tasks. Thus it calls for a crowdsourced database to process the crowdsourced tasks, which is similar to the traditional database designed to manage files. Crowdsourced databases pose three new research challenges. First, there is lack of crowdsourcing metric to describe the characteristics of the crowd. Second, there is lack of crowdsourcing theory to control the cost, quality and latency. Third, there is lack of crowdsourcing optimization mechanism to optimize complex crowdsourced tasks. The key scientific problem summarized in this proposal is metric model, controllable theory and optimization mechanism. The research problems include crowdsourcing theory, crowdsourcing operator, crowdsourcing optimization, and crowdsourcing interface. The objective is to establish the crowdsourcing theory, address the key problems, construct a crowdsourced database, make breakthroughs, and train innovative talents.
针对传统众包方法缺少众包基础理论和管理系统这一挑战性问题,本项目研究了“众包计算的可度量模型、可控理论、可优化机理”这一关键科学问题,研制了众包数据库系统,并取得了如下创新成果。.(1)众包数据库系统的基础理论:建立了众包计算的可度量、可控制、可优化理论,设计了质量感知的众包计算模型,提出了基于迭代决策的代价优化模型,设计了资源受限情况下延迟优化方法,突破了众包数据库查询优化模型。.(2)众包数据库的算子设计:提出了一系列核心众包算子设计算法,包括基于激励机制的众包收集操作算子、基于打分和两两比较的Top-k算子、基于众包的数据连接算子,显著优化了众包计算代价和延迟。.(3)众包数据库的查询优化:设计了基于图模型的众包查询优化方法,提出了基于知识图谱的智能任务调度方法,突破了基于博弈的众包查询优化模型,建立了一套众包数据库优化理论和方法。.(4)众包数据库查询接口:提出了基于收集操作的智能任务设计方法,设计了交互式在线任务分配方法,封装了通用的众包数据库接口。.(5)研制了一个通用的众包数据库管理系统,同时支持数据库传统查询以及众包查询。该系统通过类SQL语言与用户进行交互,封装了复杂的人机协作过程。与国际众包平台(如AMT等)打通,支持跨平台部署。系统应用于华为、好未来、腾讯、神州专车等公司,产生了较大的经济效益。例如应用于华为数据湖,用于海量数据的数据准备工作,提升了数据准备的效率与质量;应用于好未来题目标注,高效标注6000万道题目,具有较高的准确率;应用于腾讯公司广告数据融合,在大规模真实的微信广告数据集上进行了实验,验证了该方法的性能优势,提升了社交广告的业务指标;应用于神州专车的上车点推荐,提升推荐的效率与精度。.本项目发表了98篇为CCFA类论文,申请了22项专利,获得了国际科技进步二等奖、江苏省科技进步一等奖,获得了CIKM17最佳论文、ICDE19最佳论文、Best of KDD18、ICDE18、VLDB20。1人次获得杰青资助,2人次获得优青资助,2名博士生获得CCF优博。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
Efficient k-Regret Query Algorithm with Restriction-free Bound for any Dimensionality
任意维度无限制边界的高效 k-Regret 查询算法
DOI:10.1145/3183713.3196903
发表时间:2018-05
期刊:Proceedings of the 2018 International Conference on Management of Data - SIGMOD '18
影响因子:--
作者:Min Xie;Raymond Chi Wing Wong;Jian Li;Cheng Long;Ashwin Lall
通讯作者:Ashwin Lall
Context-aware result inference in crowdsourcing
众包中的上下文感知结果推断
DOI:10.1016/j.ins.2018.05.050
发表时间:2018-09
期刊:Inf. Sci.
影响因子:--
作者:Fang Yili;Sun Hailong;Li Guoliang;Zhang Richong;Huai Jingpeng
通讯作者:Huai Jingpeng
DOI:10.13328/j.cnki.jos.006177
发表时间:2021
期刊:软件学报
影响因子:--
作者:金连源;李国良
通讯作者:李国良
CDBTune+: An efficient deep reinforcement learning-based automatic cloud database tuning system.
CDBTune:一种高效的基于深度强化学习的自动云数据库调优系统。
DOI:10.1007/s00778-021-00670-9
发表时间:2021
期刊:VLDB J.
影响因子:--
作者:Zhang Ji;Zhou Ke;Li Guoliang;Liu Yu;Xie Ming;Cheng Bin;Xing Jiashu
通讯作者:Xing Jiashu
Adapative algorithms for crowd-aided categorization
人群辅助分类的自适应算法
DOI:10.1007/s00778-021-00685-2
发表时间:--
期刊:VLDB Journal
影响因子:4.2
作者:Li Yuanbing;Wu Xian;Jin Yifei;Li Jian;Li Guoliang;Feng Jianhua
通讯作者:Feng Jianhua
机器学习使能的分布式数据管理理论与技术
  • 批准号:
    62232009
  • 项目类别:
    重点项目
  • 资助金额:
    285万元
  • 批准年份:
    2022
  • 负责人:
    李国良
  • 依托单位:
基于大数据的科学化疫情防控
  • 批准号:
    62041204
  • 项目类别:
    专项基金项目
  • 资助金额:
    20万元
  • 批准年份:
    2020
  • 负责人:
    李国良
  • 依托单位:
数据库理论与系统
  • 批准号:
    --
  • 项目类别:
    国家杰出青年科学基金
  • 资助金额:
    400万元
  • 批准年份:
    2019
  • 负责人:
    李国良
  • 依托单位:
基于位置的社交网络关键技术研究
  • 批准号:
    61373024
  • 项目类别:
    面上项目
  • 资助金额:
    80.0万元
  • 批准年份:
    2013
  • 负责人:
    李国良
  • 依托单位:
数据库的新型查询技术研究
  • 批准号:
    61003004
  • 项目类别:
    青年科学基金项目
  • 资助金额:
    21.0万元
  • 批准年份:
    2010
  • 负责人:
    李国良
  • 依托单位:
国内基金
海外基金