面向网络信息安全的图像视频中的文字语义理解理论与方法

结题报告

项目介绍

AI项目解读

基本信息

批准号：
61733007
项目类别：
重点项目
资助金额：
270.0万
负责人：
刘文予
依托单位：
华中科技大学
学科分类：
F0304.系统工程理论与技术
结题年份：
2022
批准年份：
2017
项目状态：
已结题
起止时间：
2018-01-01 至2022-12-31

项目参与者：
白翔；殷飞；王蕊；杨欣；王兴刚；张华；郭园方；李弼；唐芃；
关键词：
文本识别文本检测网络空间内容安全场景文本语义理解

项目摘要

Text understanding has wide applications in network information security, human-computer interaction, and intelligent transportation, etc. Due to scene complexity, text diversity, and semantic latency, the performance of existing techniques for text detection and recognition in images/videos is not satisfactory which significantly limits their applications. This project aims at text understanding in images/videos for cyberspace content security by introducing a series of innovative, general, and effective methods for multi-language text detection, recognition, and understanding. Specifically, this project plans to 1) propose multi-language text representation model and general purpose representation transfer method; 2) address multi-language text detection and recognition under few-shot setting by systematically combining generative structure learning and discriminative statistical learning; 3) propose multimodal latent semantic perception methods based on images, videos and text, which achieves images/videos content aided relevance fusion analysis and address the bottleneck problem in sensitive images/videos identification and filtering. In the end, this proposal will 1) present methods which substantially improve the performance of text detection and recognition; 2) distribute a large-scale multi-language text dataset containing approximately100,000 images and organize text understanding related contests and competitions; 3) develop two prototype systems for sensitive text retrieval and illegal content monitoring respectively.

文本语义理解在网络信息安全、人机交互、智能交通等领域具有广阔的应用前景。由于技术和性能的限制，图像视频文本识别和理解距实用还有很大差距，原因在于场景复杂性、文本形式多样性以及语义隐藏性。本项目研究面向网络信息安全的图像视频文字语义理解理论与方法，提出一系列创新的、通用的、有效的多语言文本检测和识别、语义理解方法，包括跨语种通用多语言文本特征表示模型及通用特征的高效迁移方法，将生成式结构学习和区分式统计学习有机结合，解决小样本下的多语言文字检测和识别问题;提出图像视频与文本识别的多模态协同感知隐含语义的方法，实现图像视频内容辅助的关联融合分析，解决面向网络信息安全的敏感图像视频自动鉴别和过滤中的瓶颈问题。实质性地提高多语言文本检测和识别的性能；发布一个10万幅图规模、面向网络空间内容安全的多语言文本图像视频语义理解数据库并组织相关的竞赛；研发敏感词检索、敏感内容检测两个应用示范原型系统。

结项摘要

随着移动终端及互联网技术的不断发展，网络上图像与视频等媒体数据呈指数级增长。然而，部分媒体内容散布敏感言论、虚假信息等，给国家安全、社会稳定、群众生活带来了极大的危害。文本语义理解在网络信息安全、人机交互、智能交通等领域具有广阔的应用前景。由于技术和性能的限制，图像视频文本识别和理解距实用还有很大差距，原因在于场景复杂性、文本形式多样性以及语义隐藏性。本项目研究面向网络信息安全的图像视频文字语义理解理论与方法，在通用文本快速检测、语种鉴别、多语言文本识别、视频文本的跟踪与识别、图像视频中文本信息的融合理解等方面提出一系列创新、有效的模型和方法。本项目提出基于角点的文字检测方法，只需要一个局部感受野便可检测多方向、长文本，解决任意方向文字检测的难题。针对文本检测复杂度过高的问题，提出可微分的二值化操作，显著提升了文本检测算法的推理效率。提出了结合空间变换网络与注意力机制的文字识别方法，解决低质量文字中存在注意力漂移的问题和不规则文本的识别准确率低的问题，准确率超出当时最好方法10%。首次提出端到端的场景文字检测与识别算法。针对神经网络感受野大小与网络复杂度的矛盾，提出了一种新颖的循环十字型注意力机制，采用高效的十字形注意力机制替代全局注意力机制增强特征的上下文信息，并且大幅度降低了注意力机制的计算开销。提出了基于人类认知过程的多模态信息深度认知子空间聚类学习方法。通过赋予每个样本权重并动态评估样本的难易程度来更新权重，提高了聚类模型的鲁棒性。.项目研发的场景图像文字检测与识别技术搭载华为P40高端手机作为其标配的文字检测算法；开发的多语种文字图像舆情分析系统应用于公安部第三研究所等单位，提升了反恐应急响应能力；场景图像文字检测算法DBNet++应用于微信8.0版的图片文字提取功能。提出图像视频与文本识别的多模态协同感知隐含语义的方法，实现图像视频内容辅助的关联融合分析，解决面向网络信息安全的敏感图像视频自动鉴别和过滤中的瓶颈问题，研发了敏感词检索、敏感内容检测两个应用示范系统。

项目成果

期刊论文数量（39）

专著数量（0）

科研奖励数量（2）

会议论文数量（72）

专利数量（17）

Generalized Latent Multi-View Subspace Clustering

广义潜在多视图子空间聚类

DOI：
10.1109/tpami.2018.2877660
发表时间：
2020-01
期刊：
IEEE Transactions on Pattern Analysis and Machine Intelligence
影响因子：
23.6
作者：
Changqing Zhang;Huazhu Fu;Qinghua Hu;Xiaochun Cao;Yuan Xie;Dacheng Tao;Dong Xu
通讯作者：
Dong Xu

DiffNet: A Learning to Compare Deep Network for Product Recognition

DiffNet：学习比较深度网络进行产品识别