Development of OCR (optical character recognition) system for scientific documents

科学文献OCR(光学字符识别)系统开发

基本信息

  • 批准号:
    10558056
  • 负责人:
  • 金额:
    $ 8万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
  • 财政年份:
    1998
  • 资助国家:
    日本
  • 起止时间:
    1998 至 2001
  • 项目状态:
    已结题

项目摘要

In this research, we developed an OCR system adapted to scientific documents, in view of its application to retro-digitization of mathematical journals and automatic Braille transcription of mathematical documents. The target images are those obtained from clearly printed documents by 400-600DPI scanner.Since there is no commercial OCR software which can recognize mathematical symbols, we developed our own OCR engine. It recognizes with about 450 kinds of characters and symbols used in mathematical expressions, and distinguishes well the italic fonts and upright fonts of alphabets.For the recognition of text areas, there are several efficient post-processing methods to improve recognition results using linguistic information, while in mathematical expression areas, some other different methods of post-processing based on the structure of mathematical notations are efficient. Therefore, we developed algorithms to separate text area and mathematical expression areas, for both Japanese and English documents.As for the structure analysis of mathematical expressions, we developed a new method, robust against the recognition errors of characters and similar characters of different sizes. We first construct a network joining characters (symbols) by possible links of relations with cost, Finally, we obtain the result of the recognition of mathematical formulas as the spanning tree of minimum cost of the network, after reevaluating the candidates by using the cost reflecting global structure of the mathematical expressions. The advantage of this method is that local errors of the recognition are recovered automatically by the total cost of the recognition tree.We also developed handwriting interface to edit mathematical expressions to use it as an easy user interface to correct the recognition errors of mathematical expressions.
在这项研究中,我们开发了一个OCR系统,适用于科学文献,鉴于其应用到数学期刊的逆向数字化和自动盲文转录的数学文件。目标图像是由400- 600 DPI扫描仪从清晰打印的文档中获取的图像。由于没有商业OCR软件可以识别数学符号,我们开发了自己的OCR引擎。它识别了大约450种数学表达式中使用的字符和符号,并很好地区分了字母的斜体和直立字体。对于文本区域的识别,有几种有效的后处理方法可以利用语言信息来改善识别结果,而在数学表达式区域,基于数学符号结构的一些其它不同的后处理方法是有效的。因此,我们开发了分离日文和英文文档的文本区域和数学表达式区域的算法,对于数学表达式的结构分析,我们开发了一种新的方法,该方法对不同大小的字符和相似字符的识别错误具有鲁棒性。我们首先用可能的代价关系连接字符(符号)构造一个网络,最后用反映代价的数学表达式的全局结构重新评价候选项,得到数学表达式作为网络最小代价生成树的识别结果.该方法的优点是识别的局部错误可以通过识别树的总代价自动恢复。我们还开发了手写界面来编辑数学表达式,将其作为一个简单的用户界面来纠正数学表达式的识别错误。

项目成果

期刊论文数量(66)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
村上玄生, 鈴木昌和: "Center Bandを用いた数式構造解析の安定化"電子情報通信学会技術研究報告. PRMU2001-270. 203-210 (2002)
Geno Murakami、Masakazu Suzuki:“使用中心频带的数学结构分析的稳定性”IEICE 技术研究报告 203-210 (2002)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
金堀利洋, 鈴木昌和: "可変ブロックパターンによる矩形領域分割を用いた行列の認識"信学技法. PRMU2000-201. 1-6 (2001)
Toshihiro Kanahori、Masakazu Suzuki:“使用可变块模式的矩形区域分割的矩阵识别”PRMU2000-201 (2001)。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
Y.Eto., M.Suzuki: "Mathematical Formula Recognition Using Virtual Link Network"Proceedings of the Sixth International Conference on Document Analysis and Recognition, Seattle, IEEE Computer Society Press. 430-437 (2001)
Y.Eto.,M.Suzuki:“使用虚拟链路网络的数学公式识别”第六届国际文档分析与识别会议论文集,西雅图,IEEE 计算机学会出版社。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
T.Kanahori, K.Tabata, W.Cong, F.Tamari, M.Suzuki: "On-Line Recognition of Mathematical Expressions Using Automatic Rewriting Method"Advances in Multimodal Interfaces-ICMI2000, Lecture Notes in Computer Science 1948, Springer. 394-401 (2000)
T.Kanahori、K.Tabata、W.Cong、F.Tamari、M.Suzuki:“使用自动重写方法在线识别数学表达式”多模态接口的进展 - ICMI2000,计算机科学讲义 1948,Springer。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
K.Inoue: "Optical Recognition of Printes Mathmatical Documents" Proceedings of Third Asian Technology Conference in Mathematics,Springer. 280-289 (1998)
K.Inoue:“打印数学文档的光学识别”第三届亚洲数学技术会议论文集,施普林格。
  • DOI:
  • 发表时间:
  • 期刊:
  • 影响因子:
    0
  • 作者:
  • 通讯作者:
{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

SUZUKI Masakazu其他文献

ふくの鋳造技法-横浜ユーラシア文化館所蔵中国の青銅ふくについて-
袋笼铸造技术 - 关于横滨欧亚文化博物馆所藏的中国青铜袋袋 -
  • DOI:
  • 发表时间:
    2013
  • 期刊:
  • 影响因子:
    0
  • 作者:
    FUJIYOSHI Akio;NAKAGAWA Koji;SUZUKI Masakazu;三船温尚
  • 通讯作者:
    三船温尚
Responses of Water and Carbon Fluxes to Current, Near Future and Future Projected Climates at a Monsoonal Teak Plantation
季风柚木种植园水和碳通量对当前、近期和未来预计气候的响应
  • DOI:
  • 发表时间:
    2016
  • 期刊:
  • 影响因子:
    0
  • 作者:
    IGARASHI Yasunori;KUMAGAI Tomo'omi;WATANABE Satoshi;OKADA Yasuko;TAKEMI Tetsuya;KOTSUKI Shunji;YOSHIFUJI Natsuko;TANAKA Nobuaki;TANAKA Katsunori;SATO Takanori;SUZUKI Masakazu;TANTASIRIN Chatchai
  • 通讯作者:
    TANTASIRIN Chatchai
近世民家に残存する中世掘立柱建物の技法―股柱と梁間一間型系棟持柱―
现代早期私人住宅中保留的中世纪挖柱建筑技术:胯柱和脊形脊柱
  • DOI:
  • 发表时间:
    2013
  • 期刊:
  • 影响因子:
    0
  • 作者:
    FUJIYOSHI Akio;NAKAGAWA Koji;SUZUKI Masakazu;三船温尚;古川聖;中尾七重
  • 通讯作者:
    中尾七重
『ワークショップと学び第2巻 : 場づくりとしてのまなび』, 学校を訪れるアーティスト
《工作坊与学习卷2:学习作为场所创造》,艺术家参观学校
  • DOI:
  • 发表时间:
    2012
  • 期刊:
  • 影响因子:
    0
  • 作者:
    FUJIYOSHI Akio;NAKAGAWA Koji;SUZUKI Masakazu;三船温尚;古川聖
  • 通讯作者:
    古川聖

SUZUKI Masakazu的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('SUZUKI Masakazu', 18)}}的其他基金

Effects of thinning on water and carbon cycle in a Teak plantation in Thailand
间伐对泰国柚木种植园水和碳循环的影响
  • 批准号:
    24405031
  • 财政年份:
    2012
  • 资助金额:
    $ 8万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Practical methodology of regional renovation design utilizing the farm heritage in Fukushima Prefecture
利用福岛县农场遗产进行区域改造设计的实用方法
  • 批准号:
    24580037
  • 财政年份:
    2012
  • 资助金额:
    $ 8万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Characteristics of stream water chemistry in tropical lowland rainforest in Malaysian Borneo
马来西亚婆罗洲热带低地雨林溪流水化学特征
  • 批准号:
    21405021
  • 财政年份:
    2009
  • 资助金额:
    $ 8万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Studies on Regional Restoration Design and It's Medical Analogy
区域修复设计及其医学类比研究
  • 批准号:
    20240066
  • 财政年份:
    2008
  • 资助金额:
    $ 8万
  • 项目类别:
    Grant-in-Aid for Scientific Research (A)
Study on the evolutionary processes of hormone-dependent water movement
激素依赖性水运动的进化过程研究
  • 批准号:
    20570055
  • 财政年份:
    2008
  • 资助金额:
    $ 8万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Transcription factors involved in the gene transcription of calcium-regulating hormone
参与钙调节激素基因转录的转录因子
  • 批准号:
    18570058
  • 财政年份:
    2006
  • 资助金额:
    $ 8万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
A Study on Network Game Simulation of Urban Large Pak Re-development and Preference Characteristics of Park Planner
城市大型公园再开发网络博弈模拟及公园规划者偏好特征研究
  • 批准号:
    17380016
  • 财政年份:
    2005
  • 资助金额:
    $ 8万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
On Behavior Evolution of Legged Robot through Knowledge Array Network
基于知识阵列网络的腿式机器人行为演化
  • 批准号:
    14550245
  • 财政年份:
    2002
  • 资助金额:
    $ 8万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Research on the digitization system of scientific documents
科技文献数字化系统研究
  • 批准号:
    14380182
  • 财政年份:
    2002
  • 资助金额:
    $ 8万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
Evaluation of Forest influence on water resources and sediment discharge using a digitalized square-grid map
使用数字化方格图评估森林对水资源和泥沙排放的影响
  • 批准号:
    14360081
  • 财政年份:
    2002
  • 资助金额:
    $ 8万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了