课题基金基金详情
面向混合标记样本的连续行为识别技术研究
结题报告
批准号:
61671459
项目类别:
面上项目
资助金额:
60.0 万元
负责人:
张军
学科分类:
F0117.多媒体信息处理
结题年份:
2020
批准年份:
2016
项目状态:
已结题
项目参与者:
涂丹、黄魁华、雷军、李硕豪、郭强、王风雷、周浩、陈旭、陈海生
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
客服二维码
微信扫码咨询
中文摘要
实际视频场景中的连续行为识别较传统的单个行为识别更加具有挑战,本项目研究大数据背景下面向混合标记样本的连续行为识别技术。研究基于深度网络的行为时空特征自动学习方法,以数据驱动的方式学习更适应特定应用的特征。研究基于概率图模型的连续行为时序建模方法,以建立描述行为内动态过程以及行为间相互转移关系的数学模型。研究混合标记样本下集成模型的构建和学习方法,建立深度网络和概率图模型相结合的集成模型,以“端到端”的方式对混合标记样本进行学习,将行为建模的时序信息融入特征学习中,实现行为特征学习和连续行为识别的统一。本项目将面向实际应用环境,建立理论框架,设计关键算法,提高识别准确率,推动行为识别与分析技术的实用化。
英文摘要
Continuous action recognition in real video scene is more challenging than traditional isolated action recognition. This project researches on mixed labeled samples oriented continuous action recognition under the background of big data. Studying the method of automatically learning action time-space feature based on deep network, to learn features more adapt to specific application in a data-driven way. Studying time sequence modeling method for continuous action based on probabilistic graphical model, to establish a mathematic model describing the dynamic process within each action and transitions between actions. Studying the construction and learning methods of integrating model. Establishing the integrating model combining deep network and probabilistic graphic model. The integrating model learns from mixed labeled samples in end-to-end fashion, fusing the time sequence information of action modeling to feature learning and achieving action feature learning and continuous action recognition in a unified way. This project will face real application environment, conduct theoretical analysis and design key algorithms to improve recognition accuracy rate and promote the practical application of action recognition and analysis.
视频中的人体行为识别是计算机视觉的重要研究内容,在视频监控、视频检索、人机交互等领域有着广泛应用。与传统的人体单个动作识别相比,人体连续动作识别更加具有实际应用价值,也面临更大的挑战。它不仅需要应对动作的多样性和场景的复杂性,还要同时完成分割和识别两个任务。本项目研究面向混合标记样本的连续行为识别技术。首先,研究基于深度网络的行为时空特征自动学习方法,设计和构造了一种提取视频中运动信息的三维CNN网络,该网络通过三维卷积核在空间域和时间域提取三维时空特征。将原始像素、梯度和光流等多个通道数据输入三维CNN网络,既区分对待了空间维和时间维的信息,又加入了关于特征的先验知识。然后,研究基于概率图模型的连续行为时序建模方法,提出了一种基于CNN-LDCRF的连续动作识别方法,采用LDCRF对连续动作进行时序建模,LDCRF模型能够同时学习出动作内动作原子之间的动态转移关系和动作间的动态转移关系,在统一框架下集成CNN和LDCRF,构成了无缝连接的深度网络。最后,研究混合标记样本下集成模型的构建和学习方法,针对包含了动作的标签和位置信息的强标记样本,以“端到端”的方式同时优化CNN网络和LDCRF模型的参数,针对只包含动作的标签信息的弱标记样本,提出了一种弱标记样本条件下CNN-LDCRF模型的端到端训练方法,引入ECTC层通过动态规划方法有效评估输入视频和标签序列间所有的对应情况,从而实现混合标记样本条件下CNN-LDCRF模型的训练学习。实验结果表明CNN特征优于传统人工构造特征,并且CNN-LDCRF模型取得了更好的连续动作识别效果。此外,该模型在弱标记样本下也能够以“端到端”的方式得到有效训练,并且也取得了较为满意的连续动作识别效果。本项目的研究成果可以应用到公共场所的危险行为预警、视频检索中的行为标注和检索以及人机交互中的控制动作识别中。
期刊论文列表
专著列表
科研奖励列表
会议论文列表
专利列表
Convolutional recurrent neural networks with hidden Markov model bootstrap for scene text recognition
用于场景文本识别的具有隐马尔可夫模型引导的卷积循环神经网络
DOI:10.1049/iet-cvi.2016.0417
发表时间:2017-06
期刊:IET COMPUTER VISION
影响因子:1.7
作者:Wang Fenglei;Guo Qiang;Lei Jun;Zhang Jun
通讯作者:Zhang Jun
Attentive Gated Graph Neural Network for Image Scene Graph Generation
用于图像场景图生成的注意力门控图神经网络
DOI:10.3390/sym12040511
发表时间:2020-04
期刊:Symmetry-Basel
影响因子:2.7
作者:Li Shuohao;Tang Min;Zhang Jun;Jiang Lincheng
通讯作者:Jiang Lincheng
Deep hierarchical attention network for video description
用于视频描述的深度层次注意力网络
DOI:10.1117/1.jei.27.2.023027
发表时间:2018
期刊:Journal of Electronic Imaging
影响因子:1.1
作者:Li Shuohao;Tang Min;Zhang Jun
通讯作者:Zhang Jun
Deep neural network with attention model for scene text recognition
具有注意模型的深度神经网络用于场景文本识别
DOI:10.1049/iet-cvi.2016.0404
发表时间:2017-07
期刊:IET Computer Vision
影响因子:1.7
作者:Li Shuohao;Tang Min;Guo Qiang;Lei Jun;Zhang Jun
通讯作者:Zhang Jun
Image semantic segmentation with finer edges and complete parts from bounding box annotations
具有更精细边缘和边界框注释的完整部分的图像语义分割
DOI:10.1117/1.jei.28.2.023010
发表时间:2019
期刊:Journal of Electronic Imaging
影响因子:1.1
作者:Zhou Hao;Lei Jun;Wang Fenglei;Zhang Jun
通讯作者:Zhang Jun
基于大过模比同轴慢波结构的60GHz高阶模高功率相对论返波振荡器研究
基于计算摄影的运动模糊清晰化方法研究
面向视觉敏感特征保护的航拍SAR图像压缩理论与方法研究
国内基金
海外基金