盲人视觉辅助应用中的自然场景文字提取关键技术研究-猫眼课题宝

权益分类	功能权益	普通用户	{{item.name}}会员
{{category.name}}	{{benefitItem.name}}

盲人视觉辅助应用中的自然场景文字提取关键技术研究

结题报告

批准号：

61671376

项目类别：

面上项目

资助金额：

58.0 万元

负责人：

赵凡

依托单位：

西安理工大学

学科分类：

F0117.多媒体信息处理

结题年份：

2020

批准年份：

2016

项目状态：

已结题

项目参与者：

孙力、廖开阳、蔺广逢、范彩霞、李维、陈亚军、景翠宁、杨垚、姚早

关键词：

文字检测文字标牌目标跟踪穿戴视觉透视矫正

国基评审专家1V1指导中标率高出同行96.8%

中文摘要

盲人视觉辅助应用中的自然场景文字有效提取仍然是一个亟待解决的问题。自然场景中文字呈现的多样性、盲人在行走过程中的头部旋转以及非正面拍摄引起的文字几何失真等因素，都构成了这一应用中文字提取技术的瓶颈。本项目拟研究：（1）基于BOVW模型的文字标牌检测的高效学习方法；（2）检测-跟踪-模版更新相结合的文字标牌跟踪方法和穿戴式视觉对跟踪的稳定性影响；（3）基于不变特征约束的标牌文字透视矫正估计方法。本课题将理论分析和实验研究相结合，旨在建立自适应决定自然场景目标种类个数的非监督字典学习模型，探索体现文字标牌特点的强区分性特征，实现盲人行走过程中文字标牌的实时稳定跟踪，消除非正面拍摄造成的文字几何失真，为盲人的视觉辅助应用奠定理论基础。

英文摘要

Efficient extraction of natural scene text is still a problem to be solved in the blind visual aid application. The diversity presented by natural scene text, the head rotation of the blind during walking and the geometric distortion resulted by not frontal shooting of camera, have become the bottleneck factors of text extraction technology in the wearable vision application. The research work mainly include: 1) An efficient learning method in the text sign detection is studied, which is based on BOVM model; 2) A TUD (Tracking-Updating-Detection) text sign tracking method is proposed, and the influence of wearable vision on the stability of tracking is studied. 3) The perspective correction of text is estimated under the invariant feature constraint. By means of the theoretical analysis and experiments studies, our objectives are as follows. An unsupervised dictionary learning model is constructed, which aims to adaptively determine the number of scene target species. The strong distinguishing feature is selected by the detector, which can reflect the characteristics of text signs. The real time stable tracking of text sign in the course of the blind walking is realized. The geometry distortion of the text in the walking process of the blind is eliminated. The above research achievement will provide the theoretical basis for the visual aid application of the blind.

自然场景文字信息提取广泛应用于多语言翻译、盲人辅助导航、信息检索、产品识别中。自然场景中任意出现的文字，受语种、拍摄角度、复杂背景和光照变化等因素的影响，呈现方向、形状、语言、大小、颜色和明暗的多样性，为文字检测和识别技术带来了很大挑战。本项目从以下几个研究内容方面展开研究。1）在基于BOVW模型的文字标牌检测的高效学习方法研究方面，我们提出了一种集成BRISK纹理特征和颜色不变性的HS直方图颜色特征的文字标牌描述特征，对自然场景中出现的文字标牌进行了很好的检测。2）为了克服传统字符检测模型由于笔画间存在非连通性引起的汉字错误分割问题，提出了一种直接高效的自然场景汉字逼近定位方法。实验结果表明，对ICDAR2015、ICDAR2017-MLT和MSRA-TD500三个多方向数据集上文本定位任务中的F-score分别达到83.5%,72.8%和81.1% 。3）在车牌字符的识别研究方面，我们设计并实现了一个自然场景下的视频车牌识别系统，对自然场景中拍摄的视频图像的车牌识别取得了很好的结果。4）在自然场景中的曲线文字检测研究方面，我们引入了一种高效、直观的弱检测器精加工机制，由基于粒子群优化的文本形状近似和实例感知的文本组件合并两部分组成，可以把传统的目标检测器的检测结果由松散的矩形框变为紧凑的多边形。实验结果表明，提出的方法在CTW1500和Total-Text5个数据集上H均值性能分别达到82.5％和83.7％。5）针对跟踪算法中存在的模板漂移问题，提出了一种基于增量学习的核相关滤波目标跟踪方法，具有更好的跟踪稳定性。6）在红外目标的检测研究方面，我们提出了一种利用运动轨迹时空一致性的红外运动小目标检测算法，可以提高盲人的夜间的户外出行时对文字的检测和识别能力。7）在系统开发方面，我们开发了一款识字认路系统，实现了人机交互、场景文字的识别和位置定位。本项目的研究为盲人的视觉辅助应用奠定了理论基础，研究成果在盲人辅助导航及产品识别领域有着广阔的应用前景。

期刊论文列表

专著列表

科研奖励列表

会议论文列表

专利列表

基于SATD的H.265/HEVC拉格朗日因子选择算法

DOI：--

发表时间：2017-06

期刊：

通信学报

影响因子：--

作者：

李维;赵凡;张二虎;任鹏

通讯作者：任鹏

Parallel N-Path Quantification Hierarchical K-Means Clustering Algorithm for Video Retrieval

用于视频检索的并行 N 路径量化分层 K 均值聚类算法

DOI：10.1142/s021800141750029x

发表时间：2017-02

期刊：

International Journal of Pattern Recognition and Artificial Intelligence

影响因子：1.5

作者：

Liao Kaiyang;Zhao Fan;Zheng Yuanlin;Cao Congjun;Zhang Mingzhu

通讯作者：Zhang Mingzhu

Robust and secure zero-watermarking algorithm for color images based on majority voting pattern and hyper-chaotic encryption

基于多数投票模式和超混沌加密的稳健、安全的彩色图像零水印算法

DOI：10.1007/s11042-019-08191-y

发表时间：2019-10-24

期刊：

MULTIMEDIA TOOLS AND APPLICATIONS

影响因子：3.6

作者：

Kang, Xiao-bing;Lin, Guang-feng;Jing, Cui-ning

通讯作者：Jing, Cui-ning

基于视觉感知特征融合的图像质量评价

DOI：10.19322/j.cnki.issn.1006-4710.2018.04.012

发表时间：2018

期刊：

西安理工大学学报

影响因子：--

作者：

唐梽森;郑元林;廖开阳;王玮

通讯作者：王玮

An efficient video dehazing algorithm based on spectral clustering

DOI：10.1117/12.2282042

发表时间：2017-07

期刊：

影响因子：--

作者：

Fan Zhao;Zao Yao;Xiaofang Song;Yi Yao

通讯作者：Fan Zhao;Zao Yao;Xiaofang Song;Yi Yao

国内基金

海外基金

会员权益说明：