基于生成对抗网络的视觉显著性特征检测方法研究

结题报告

项目介绍

AI项目解读

基本信息

批准号：
61702457
项目类别：
青年科学基金项目
资助金额：
25.0万
负责人：
梁浩然
依托单位：
浙江工业大学
学科分类：
F0210.计算机图像视频处理与多媒体技术
结题年份：
2020
批准年份：
2017
项目状态：
已结题
起止时间：
2018-01-01 至2020-12-31

项目参与者：
王海霞；徐超清；党源杰；曹帝胄；李思；翟双坡；柳芬；
关键词：
显著性分析与检测图像识别图像理解生成对抗网络

项目摘要

Using human’s visual perception mechanism to detect image saliency is practical in various fields. Computational saliency model based on deep neural networks has received interest by the research community for many years. However, problems such as the dependence on object recognition feature, the insufficiency of error feedback and the mismatch of complexity between data and model still remain. This project aims at using generative adversarial network (GAN) for saliency detection. The main ideas and contributions are: 1. We use different input data such as random noise, fused feature map, output from network in an optimized network structure to deliver image feature to the output of generative network, which bridges different types of feature and the synthesized output. 2. We propose to alter the objective function by adding the error from real image and synthesized output to adjust GAN to saliency detection task. 3. By building a large scale data set, we train saliency model using image and saliency map combined with our customized GAN to avoid over-fitting. We seek to overcome the existing problems using GAN and build a saliency model with both accuracy and robustness.

采用计算机技术引入人类视觉感知机理，对图像进行显著性分析与检测可应用于多个领域。当前深度神经网络已成为视觉显著性研究领域的热点，然而目前方法存在过分依赖物体识别特征、误差反馈不足、样本复杂度与模型复杂度不匹配等问题。本项目拟开展基于生成对抗网络的视觉显著性特征检测算法研究。主要思路与创新为：1、以随机变量、特征融合、模型输出等多种方式产生输入数据，结合输出结果优化图像特征的传递，提高各类特征与生成结果的相关性；2、通过将真实视觉显著图与输出结果的误差引入网络的对抗训练过程中，调整模型目标函数，提高生成对抗模型对显著性特征定位的适用性和准确度；3、构建大规模视觉显著性数据集，通过结合图像与对应显著图，调整网络结构，匹配训练过程中样本与模型的复杂度，降低训练过程中过拟合的风险。项目可望通过对生成对抗网络的应用，形成同时具有准确性和鲁棒性的视觉显著性特征检测模型。

结项摘要

从图像与视频数据中获取信息是一个重要的信息处理任务。相比起计算机，人类在信息感知方面有着先天的优势。人类能够迅速而精准地识别出图像与视频中的内容，提取重要信息并快速总结，而计算机在这方面目前仍没有快速而准确的模型。在计算机硬件性能快速提升，大数据处理与云计算高速发展的如今，人们希望机器能够像人一样处理海量图像与视频数据，快速获取重点信息，由此诞生了视觉显著性分析检测模型的研究。视觉显著性模型即是通过建立计算机数学模型来模拟人类的视觉系统，从而在给定的图像与视频数据中提取人类普遍关注的重点。此类重点即为显著性区域，它们能直观地代表人类在观察图像与视频时获取信息的位置与特征。如何在现存的信息体量下快速获取重点信息则成为了商业、媒体等领域一个具有重大研究意义的问题。.本项目基于当前视觉显著性模型的不足，利用人工神经网络的先进性，开展基于新型深度学习网络的视觉显著性检测算法研究，通过研究数据合成，对抗训练等方法，弥补现有视觉显著性深度神经网络模型的不足，通过构建大规模视觉显著性数据集，简化深度模型复杂度，提升图像中的视觉显著性特征检测准确度。在研究基础上，将视觉显著性检测算法进行了应用，成功开发了基于视觉显著性的视频摘要方法，将视觉显著性成功与实际问题进行了结合。.本项目所涉及的模型和方法共有5篇论文发表，包括领域内的顶级CCF A类国际会议AAAI，SCI期刊Neurocomputing等，被本领域专家多次正面评价和引用，为视觉显著性在其它领域的应用提供了理论支撑。

项目成果

期刊论文数量（4）

专著数量（0）

科研奖励数量（0）

会议论文数量（1）

专利数量（0）

CapVis: Toward Better Understanding of Visual-Verbal Saliency Consistency

CapVis：更好地理解视觉-语言显着性一致性

DOI：
10.1145/3200767
发表时间：
2019
期刊：
ACM Transactions on Intelligent Systems and Technology
影响因子：
5
作者：
Liang Haoran;Jiang Ming;Liang Ronghua;Zhao Qi
通讯作者：
Zhao Qi

A structure-guided approach to the prediction of natural image saliency

一种结构引导的自然图像显着性预测方法

DOI：
10.1016/j.neucom.2019.09.085
发表时间：
2020-02
期刊：
Neurocomputing
影响因子：
6
作者：
Liang Haoran;Jiang Ming;Liang Ronghua;Zhao Qi
通讯作者：
Zhao Qi

Combining Object Detection and Binocular Vision for 3D Car Pose Estimation

结合物体检测和双目视觉进行 3D 汽车姿态估计

DOI：
10.3724/sp.j.1089.2019.17625
发表时间：
2019
期刊：
Jisuanji Fuzhu Sheji Yu Tuxingxue Xuebao/Journal of Computer-Aided Design and Computer Graphics
影响因子：
--
作者：
Zhao Xing;Liang Haoran;Liang Ronghua
通讯作者：
Liang Ronghua

Video summarisation with visual and semantic cues

具有视觉和语义线索的视频摘要