Improvement of layout analysis and character area recognition for extracting digital text from modern books
改进布局分析和字符区域识别以从现代书籍中提取数字文本
基本信息
- 批准号:18K18330
- 负责人:
- 金额:$ 2.5万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Early-Career Scientists
- 财政年份:2018
- 资助国家:日本
- 起止时间:2018-04-01 至 2022-03-31
- 项目状态:已结题
- 来源:
- 关键词:
项目摘要
本研究は主に近代の書籍を対象としたデジタルテキスト化の精度向上を目標として、レイアウト解析および文字領域認識の精度向上を目的としている。特に近代書籍特有の原本の悪さやフォントの違い、また特有のレイアウト構造に起因する既存のOCRシステムの文字領域に関する誤認識に対し、その文字領域の周辺情報を用いて自動的に訂正することにより、それを用いて再度OCRを行うことによる精度向上を目的としている。令和3年度はこれまで開発を行なってきた領域認識誤り訂正システムをベースにして、引き続き領域認識誤り訂正の訂正アルゴリズムの検討を行い、周辺の文字領域の大きさ・位置情報などを用いて自動的に行うシステムの研究開発を行った。アルゴリズムとしては、既存のOCRシステムから出力されたXML形式のOCR結果に対し、各文字領域の認識誤り判定、周辺の文字領域のサイズ情報に基づく修正後の文字領域位置・サイズの推定を順に処理を行なうアルゴリズムとなっている。用いる情報としては、文字誤りは文中の少数の文字で起こると仮定し、主に同一文中にある文字の文字領域のサイズや位置情報を用いて誤り判定、位置・サイズ情報の推定を行う。また、特に文字サイズは漢字・ひらがな・カタカナといった文字種によって違いがあるため、文字種ごとに異なる誤り判定基準、推定方法を用いて処理を行なっている。これらのアルゴリズムについて実際に実装を行い、作成済のテストデータを用いて実験を行った。
This study focuses on the accuracy of modern books in the field of image analysis and text recognition In particular, modern books are unique to the original text, the original text, the original text structure, the original text, the original text, the original text. In 2010 and 2013, the development of field recognition error correction system was carried out, and the development of automatic field recognition error correction system was carried out. The OCR results of the existing OCR system are processed in XML format, and the recognition error judgment of each character field, the base information of the character field after correction, and the estimation of the character field are processed in sequence. The information in the text is incorrect, the position information is incorrect, the position information is incorrect, and the information is estimated.また、特に文字サイズは汉字·ひらがな·カタカナといった文字种によって违いがあるため、文字种ごとに异なる误り判定基准、推定方法を用いて处理を行なっている。This is the first time I've ever been to a hotel.
项目成果
期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
数据更新时间:{{ journalArticles.updateTime }}
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
増田 勝也其他文献
SEMANTIC SEARCH USING ANNOTATIONS BY NATURAL LANGUAGE PROCESSING : PAPER SEARCH BASED ON EVENTS IN BIOMEDICAL SCIENCE
- DOI:
- 发表时间:
2014-10 - 期刊:
- 影响因子:0
- 作者:
増田 勝也 - 通讯作者:
増田 勝也
増田 勝也的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}














{{item.name}}会员




