基于跨模态学习和条件随机场的RGBD室内场景理解研究
结题报告
批准号:
61662024
项目类别:
地区科学基金项目
资助金额:
39.0 万元
负责人:
刘伟
依托单位:
学科分类:
F0210.计算机图像视频处理与多媒体技术
结题年份:
2020
批准年份:
2016
项目状态:
已结题
项目参与者:
蔡体健、黄晓辉、李光辉、莫佳、田珊珊、唐顺发、单会玲
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
客服二维码
微信扫码咨询
中文摘要
RGB-D图像的场景理解是当前计算机视觉研究中的难点和热点问题,在增强现实和家庭服务机器人等领域中有着广泛应用,本项目拟利用跨模态学习进行RGB-D数据特征提取,结合条件随机场技术开展RGB-D场景理解方面的研究,建立和改进RGB-D场景理解模型。受限于室内场景中物体种类繁多、易遮挡以及训练数据匮乏等因素,RGB-D场景理解依然面对着挑战。针对样本匮乏问题,本项目拟从训练样本扩充、特征设计和模型设计三个角度出发,为以上问题提供有效解决方案, 主要包含以下三个研究内容:(1)设计基于跨模态学习的特征提取算法,挖掘不同模态数据之间的非线性关系;(2)构造空间上下文模型,建模场景中的上下文关系;(3)构造多任务场景理解模型,充分利用不同任务之间的高度相关性。通过在这些方面开展深入系统研究,本项目希望凭借建立和改进RGB-D场景理解模型算法,提高RGB-D场景的解析效果,为工程实践应用提供借鉴。
英文摘要
Nowadays, parsing indoor scenes using RGB-D imagery has become an emerging challenge with various applications. However, it retains as an open problem due to the deficiency of labeling 3D training data. Moreover, a major challenge of this task arises from the fact that most indoor scenes are cluttered and occluded with each other. To addresses the problem of small datasets, our proposal targets at designing feature, expanding training samples and designing model, including(1) feature extraction based on bimodal learning, (2) spatial context model and (3) multi-task model for scene parsing. These aspects have not been extensively studied currently. Under our proposal, we intend to achieve the following objectives: (1) a set of algorithms for parsing RGB-D scenes will be presented; (2) a kind software for parsing RGB-D scenes will be developed; (3) eight or more papers will be published in authoritative journals or important international conferences.
RGB-D图像的场景理解是当前计算机视觉研究中的难点和热点问题,在增强现实和家 庭服务机器人等领域中有着广泛应用,本项目拟利用跨模态学习进行RGB-D数据特征提取 ,结合条件随机场技术开展RGB-D场景理解方面的研究,建立和改进RGB-D场景理解模型。 受限于室内场景中物体种类繁多、易遮挡以及训练数据匮乏等因素,RGB-D场景理解依然 面对着挑战。针对样本匮乏问题,本项目拟从训练样本扩充、特征设计和模型设计三个角 度出发,为以上问题提供有效解决方案, 主要包含以下三个研究内容:(1)设计基于跨模 态学习的特征提取算法,挖掘不同模态数据之间的非线性关系;(2)构造空间上下文模型 ,建模场景中的上下文关系;(3)构造多任务场景理解模型,充分利用不同任务之间的高度相关性。通过在这些方面开展深入系统研究,本项目希望凭借建立和改进RGB-D场景理解模型算法,提高RGB-D场景的解析效果,为工程实践应用提供借鉴。本项目的研究成果包括:(1)在国内外重要期刊和会议上已经发表与研究内容相关的学术论文8篇,其中SCI期刊论文4篇,中文核心期刊论文1篇,EI检索会议论文3篇。(2)申请一项国家发明专利一项。(3)培养和协助培养计算机视觉相关方向的本科毕业生12名,硕士毕业生4名。综上所述,本项目较好地达到了预期的研究目标,本项目涉及到的跨模态学习和多任务学习的研究成果可以为RGB-D、图像及点云的场景理解的理论研究和工程实践提供一定的借鉴。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
A robust interclass and intraclass loss function for deep learning based tongue segmentation
用于基于深度学习的舌头分割的稳健的类间和类内损失函数
DOI:10.1002/cpe.5849
发表时间:2020-05-25
期刊:CONCURRENCY AND COMPUTATION-PRACTICE & EXPERIENCE
影响因子:2
作者:Cai, Yuanzheng;Wang, Tao;Luo, Zhiming
通讯作者:Luo, Zhiming
Improving deep ensemble vehicle classification by using selected adversarial samples
使用选定的对抗性样本改进深度集成车辆分类
DOI:10.1016/j.knosys.2018.06.035
发表时间:2018-11-15
期刊:KNOWLEDGE-BASED SYSTEMS
影响因子:8.8
作者:Liu, Wei;Luo, Zhiming;Li, Shaozi
通讯作者:Li, Shaozi
A Viewpoint Aware Multi-Task Learning Framework for Fine-Grained Vehicle Recognition
用于细粒度车辆识别的视角感知多任务学习框架
DOI:10.1109/access.2020.3024658
发表时间:2020
期刊:IEEE Access
影响因子:3.9
作者:Qianqiu Chen;Wei Liu;Xiaoxia Yu
通讯作者:Xiaoxia Yu
DOI:--
发表时间:2018
期刊:计算机科学
影响因子:--
作者:蔡体健;樊晓平;陈志杰;廖志芳
通讯作者:廖志芳
An Ensemble Deep Learning Method for Vehicle Type Classification on Visual Traffic Surveillance Sensors
视觉交通监控传感器上车辆类型分类的集成深度学习方法
DOI:10.1109/access.2017.2766203
发表时间:2017-01-01
期刊:IEEE ACCESS
影响因子:3.9
作者:Liu, Wei;Zhang, Miaohui;Cai, Yuanzheng
通讯作者:Cai, Yuanzheng
装配式建筑项目供应链协同效益多元驱动、动态测度及分享机制研究
  • 批准号:
    72261012
  • 项目类别:
    地区科学基金项目
  • 资助金额:
    28万元
  • 批准年份:
    2022
  • 负责人:
    刘伟
  • 依托单位:
国内基金
海外基金