生物视觉启发的图像表征框架及与卷积神经网络的统一表示

批准号:
61806010
项目类别:
青年科学基金项目
资助金额:
24.0 万元
负责人:
翁大伟
依托单位:
学科分类:
F0609.认知与神经科学启发的人工智能
结题年份:
2021
批准年份:
2018
项目状态:
已结题
项目参与者:
郑雅菁、张祎晨、余肇飞、王文耀、岳洋、刘冬冬、赵相坤、杨淼、刘文艳
国基评审专家1V1指导 中标率高出同行96.8%
结合最新热点,提供专业选题建议
深度指导申报书撰写,确保创新可行
指导项目中标800+,快速提高中标率
微信扫码咨询
中文摘要
首先,现有的表征方法在性能上仍有很大的可提升空间,且缺乏统一的理论解释。本项目拟借鉴灵长类动物视网膜对客观世界的视觉表征和小波对信号的完全重建理论,构建描述子设计的统一框架,该框架既能统一现在主流的描述子设计方法,又能设计出性能更高的描述子。其次,现在图像表征和深度学习神经网络被视为两个互不联系的问题割裂开来研究,且后者消耗大量的样本和计算。而从生物视觉系统的视觉通路来看,视网膜对客观世界的完备表征为大脑神经网络不变特征的提取提供了有效的基础,且视网膜的表征是固定的不参与大脑皮层的学习过程。 基于此,本项目拟基于对人类视觉通路的认知构建将图像表征、深度神经网络结合在一起的统一方法,通过固定神经网络前面层的处理,减少深度神经网络对训练样本的依赖。最后,生物神经元之间的通讯是通过发放电脉冲,本项目拟基于生物脉冲的编码机制,将上述所得神经网络转化为脉冲神经网络,进一步提高计算效率。
英文摘要
First, existing image representation methods not only have large development room in performance, but also are failed to explain themselves thanks to the absence of unified theory. Our project plans to build a unified frame to explain the mechanism of representation methods and instruct the designation of descriptors, based on the reference to visual representation of primate retina to objective world and complete signal reconstruction theory in wavelet analysis. This frame can unify popular descriptors as well as develop new ones with high performance. Second, image representation method and deep neural network (DNN) are considered as different study tasks with no direct relation. Furthermore, DNN requires a mass of training samples and computation resources. In biological visual pathway, however, the full representation of retina to visual world provides a basis for subsequent central neural system to extract invariant features. Moreover, the structure of retina is fixed, without participating in the learning process of cortex. Based on the knowledge of human visual pathway, our project intends to develop a method combining the representation and deep neural network approaches. Therefore, by fixing the earlier layers in DNN, the dependencies of sample and resources could be reduced. Last but not least, neurons in biological neural system communicate by spikes. In order to further improve the computational efficiency, we turn the Artificial DNN into Spiking Neural Network on the strength of the time coding mechanism in the spiking trains of real neuron.
本项目主要研究了底层图像描述子设计框架、图像底层特征与深度神经网络统一表示、基于感受野的脉冲采样模型,取得了实验和理论上的突破,总结如下:.1. 一种基于小波理论的描述子设计框架,图像表征作为计算机视觉领域的一个基础问题,很多应用都需要一个高可区分性、高鲁棒性、高计算效率的图像表征方法。借鉴神经生物学关于视网膜信息处理机制的发现和信号处理领域的小波理论,项目探究了基于直方图的像表征方法的本质,提出一个具有生物支撑和理论支撑的局部描述子设计新框架。该方法与传统的方法有着本质的区别。在Winder提出的数据库上该框架下设计的描述子取得了目前最好的实验结果,并设计实验验证了所提框架在理论上的正确性。.2. 基于LogZ保角变换的图像局部特征与深度神经网络统一模型,卷积神经网络具有强大的学习能力,但现有的卷积神经网络对训练样本过度依赖,且因其超大的参数空间使得在训练过程中很容易产生过拟合。我们在1中提出的基于视网膜建模的图像描述子结合了生物视觉与计算机视觉的设计思想,同时描述子结构充分保留了原始图像空间信息,适合模仿V1-V2-V4结构的卷积神经网络对其继续逐层提取空间信息。结合上述几点,我们开创性地提出将图像描述子与卷积神经网络进行结合,先由我们的图像描述子进行原始图像的抽象表征,再由卷积神经网络进行多层次特征提取,最终将卷积神经网络的最高层特征输出作为图像的特征。目前在典型数据集上的实验结果已经超过了state-of-art的水平。.3.基于脉冲相机的采样原理提出了一种小波视觉采样模型,脉冲相机是一款模仿视网膜中的中央的视觉传感器。它通过累积光强并释放0、1的脉冲数据不仅可以捕捉场景中的纹理细节信息,而且还有着远大于传统相机的时间分辨率。然而,在某些复杂场景中,比如光照过强的场景,脉冲相机也无法很好地捕捉到物体的纹理细节。此外,不同于人类视觉对噪声的强鲁棒性,脉冲相机容易受到噪声的干扰。这是由于采样原理忽略了过多人类视觉系统中的结构导致的。基于上述考虑,课题组成员提出了一种小波视觉采样模型,使用小波滤波器模拟人类视觉系统中的感受野。具体地,通过控制小波滤波器的尺度参数模拟感受野的尺度与极性。实验结果表明,通过采集区域信息,本技术不仅可以获取更多的纹理细节信息,而且对噪声还有很强的鲁棒性。
专著列表
科研奖励列表
会议论文列表
专利列表
国内基金
海外基金
