Study to generate a huge text corpus of Japanese in Edo-period and to recognize historical cursive

江户时代日语海量文本语料库生成及历史草书识别研究

基本信息

  • 批准号:
    21K12008
  • 负责人:
  • 金额:
    $ 2.66万
  • 依托单位:
  • 依托单位国家:
    日本
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
  • 财政年份:
    2021
  • 资助国家:
    日本
  • 起止时间:
    2021-04-01 至 2026-03-31
  • 项目状态:
    未结题

项目摘要

深層学習の技術の登場により、それまでまともに認識できなかった古文書のくずし字を認識できるようになった。版本(出版された本)に限れば約95%の正解率という実用レベルに達している。しかし版本のくずし字はくずし字の中では読みやすい。教育レベルが低い人も多い一般大衆にとって読みやすいように、清書専門の職人が工夫して書いているからである。具体的には、漢字より平仮名が多かったり、変体仮名の種類が少なかったり、くずしの程度が軽かったりする。それに対し、書簡や和歌の肉筆の文書のくずし字の中には、版本と違い読みにくい文字がたくさんある。それらの多くはプライベートな文書で、想定している読み手が読めさえすれば良いというスタンスで書かれており、一般大衆向けの版本の人工的なくずし字と違い、自由で多様なくずし字となっている。このような肉筆のくずし字認識の正解率は、我々が試した限りでも7割前後にまで落ちることもあり、今後のくずし字認識の主要なターゲットであると認識している。肉筆のくずし字認識の正解率を上げるための前提として、大規模なテキストコーパスが不可欠であると考えた。深層学習による文字認識を牽引している英語の文字認識も、現代中国語の文字認識も、膨大なテキストコーパスを利用している。具体的には、GPT-3.5が用いる英語のテキストコーパスは約4000億語、現代中国語のテキストコーパスは6000万字以上である。それに対し、くずし字認識のための近世日本語の大規模テキストコーパスは(ごく一部のジャンルや小規模なものを除き)我々の知る限り存在しない。これに対し我々は昨年度開発した、変体仮名などにも対応したOCRを使い、古文書を翻刻し活字として既に出版された書籍430冊から6700万字以上テキストを抽出する成果を挙げた。
Deep learning techniques are introduced, and the knowledge of ancient texts is recognized. Version (published) is limited to approximately 95% correct rate. In the middle of the book, there is a lot of work to do. Education is the best way to improve the quality of education. The specific Chinese characters are different from each other, and the types of Chinese characters are different. In the middle of the book, in the middle of the book. For example, if you want to write a book, you can write a book. If you want to write a book, you can write a book. If you want to write a The correct solution rate of the word recognition of the meat pen is the same as that of the original word recognition. A study on the premise of correct understanding of Chinese characters on a large scale Deep learning is the driving force of English character recognition, modern China character recognition, and the expansion of Chinese character recognition. The specific language, GPT-3.5, is about 400 billion words, and the modern China language is more than 60 million words. In modern Japanese, there is a limit to what we know. This year's opening ceremony was held in Beijing, China, with over 67 million Chinese characters.

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

長井 歩其他文献

SAT問題を解くDPLLベースの探索法に対する改善手法
用于解决 SAT 问题的基于 DPLL 的搜索方法的改进
第23回PRMU研究会アルゴリズムコンテスト実施報告
第23届PRMU课题组算法竞赛实施报告
  • DOI:
  • 发表时间:
    2019
  • 期刊:
  • 影响因子:
    0
  • 作者:
    宮崎 智;桂 尚輝;長井 歩;青池 亨;唐 一平;鈴木 拓矢;玉木 徹;内田 祐介;西山 正志;緒方 貴紀;白井 啓一郎;中村 和晃;北本 朝展;カラーヌワット タリン
  • 通讯作者:
    カラーヌワット タリン
自己組織化マップによる行動履歴の類型化-クレジットカード利用履歴を利用したキャッシング移行予測-
使用自组织映射对行为历史进行分类 -使用信用卡使用历史进行兑现转变预测-
  • DOI:
  • 发表时间:
    2006
  • 期刊:
  • 影响因子:
    0
  • 作者:
    関庸一;長井 歩;石原 淳一郎;渡邊 亮
  • 通讯作者:
    渡邊 亮
Df-pn algorithm for searching AND/OR trees and its applications
  • DOI:
  • 发表时间:
    2002
  • 期刊:
  • 影响因子:
    0
  • 作者:
    長井 歩
  • 通讯作者:
    長井 歩
Dialect-contact-related linguistic changes among English-speaking expatriates in Japan: A longitudinal corpus-based study
日本英语外籍人士中与方言接触相关的语言变化:基于纵向语料库的研究
  • DOI:
  • 发表时间:
    2022
  • 期刊:
  • 影响因子:
    0
  • 作者:
    宮崎 智;桂 尚輝;長井 歩;青池 亨;唐 一平;鈴木 拓矢;玉木 徹;内田 祐介;西山 正志;緒方 貴紀;白井 啓一郎;中村 和晃;北本 朝展;カラーヌワット タリン;Keiko Hirano
  • 通讯作者:
    Keiko Hirano

長井 歩的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('長井 歩', 18)}}的其他基金

SAT(命題論理の充足可能性)問題を解くアルゴリズムに関する研究
解决SAT(命题逻辑可满足性)问题的算法研究
  • 批准号:
    17700135
  • 财政年份:
    2005
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Young Scientists (B)

相似海外基金

手書き文字認識を組み込んだ記述式自動採点システムの開発と改良
结合手写字符识别的描述性自动评分系统的开发和改进
  • 批准号:
    23K28201
  • 财政年份:
    2024
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
少量の実データに基づく画像内文字認識及びその応用
基于少量真实数据的图像字符识别及其应用
  • 批准号:
    22KJ0905
  • 财政年份:
    2023
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
並行AIモデルによる手書き英作文の文字認識自動採点システムの開発
利用并行AI模型开发手写英语作文字符识别自动评分系统
  • 批准号:
    22K02917
  • 财政年份:
    2022
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
Adopting Transkribus in the National Library of Scotland: Understanding how Handwritten Text Recognition Will Change Management and Use of Digitised M
苏格兰国家图书馆采用 Transkribus:了解手写文本识别将如何改变数字化 M 的管理和使用
  • 批准号:
    2422919
  • 财政年份:
    2020
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Studentship
未就学児における文字認識の解明と読み困難に対する早期支援システムの社会実装
学龄前儿童性格识别的阐明和阅读困难早期支持系统的社会实施
  • 批准号:
    19J01121
  • 财政年份:
    2019
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for JSPS Fellows
手書き文字認識問題を対象とした深層学習における入力パターン内論理構造の自己組織化
深度学习中手写字符识别问题输入模式内逻辑结构的自组织
  • 批准号:
    19K12045
  • 财政年份:
    2019
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
小学校外国語絵本型カリキュラムにおける文字認識を豊かにする文字指導
小学外语绘本课程中文字教学丰富文字识别
  • 批准号:
    19H00071
  • 财政年份:
    2019
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Encouragement of Scientists
Text Recognition of Historical Japanese Documents
日本历史文献的文本识别
  • 批准号:
    18K19800
  • 财政年份:
    2018
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Challenging Research (Exploratory)
Text recognition software development for legal services
法律服务文本识别软件开发
  • 批准号:
    520334-2017
  • 财政年份:
    2017
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Engage Grants Program
Text Recognition and Comprehension Strategies of Deaf Children with Good Reading Skills
具有良好阅读能力的聋哑儿童的文本识别和理解策略
  • 批准号:
    23330273
  • 财政年份:
    2011
  • 资助金额:
    $ 2.66万
  • 项目类别:
    Grant-in-Aid for Scientific Research (B)
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了