日本近代公文書自動解読システムの構築
现代日本公文自动译码系统的构建
基本信息
- 批准号:20H01304
- 负责人:
- 金额:$ 10.98万
- 依托单位:
- 依托单位国家:日本
- 项目类别:Grant-in-Aid for Scientific Research (B)
- 财政年份:2020
- 资助国家:日本
- 起止时间:2020-04-01 至 2025-03-31
- 项目状态:未结题
- 来源:
- 关键词:
项目摘要
自動解読システムの核となるものは手書き文書認識技術である。これは字形情報と文脈情報を使って、注目している手書き文字の字種を推定する技術である。手書き文書認識技術の進歩は近年めざましいが、近代公文書は旧字体、略字、崩し字など様々な字体で書かれているため、自動解読は容易でない。本研究では深層学習を用いた文書認識技術を用いるが、これには近代公文書の文字特徴を網羅するデータセットを用意する必要がある。また、目標とする自動解読精度95%を達成するためには文書認識の新規技術の開発が必要である。本研究では、2021年度末までに、台湾総督府文書を題材として、約81万文字分の手書き文字の基礎データを含むデータセットを開発した。2022年度はさらに、約33万文字分のデータを追加し、4,548画像、約114万文字分のデータセットを開発した。また、自動解読システム開発のための要素技術として、2020年度までに精度95%の文字切り出し技術と精度89%の個別文字認識技術の開発を行ったが、2021~2022年度はこれらの精度改善手法を検討し、個別文字認識は93%の認識精度を達成するとともに、サンプル数の少ない字種の認識精度改善手法を検討。また、文脈情報を利用する行画像認識技術の開発を進め、92%の認識精度を達成した。これら要素技術により対話型解読支援システムを試作し、台湾研究機関の史学研究者らの協力のもと支援機能の評価実験を行った。また、台湾総督府文書を題材にして計量文献学的手法による時間・空間特徴の分析も行った。これらの成果については学術論文1編、国内学会発表2件により公表・報告を行った。本研究課題では、今後、125万文字分までデータセットを拡充するとともに、これまで開発した技術を基盤として、実利用可能な近代公文書自動解読システムを構築する。
Automatic solution to the problem of nuclear weapons, the use of calligraphy and document recognition technology This is the first time that the Chinese characters have been used in Chinese calligraphy, and the Chinese characters have been used in Chinese calligraphy. In recent years, the progress of calligraphy and document recognition technology has changed. Modern official documents have changed from old fonts, abbreviated characters, broken characters to books. This study aims to explore the characteristics of modern Chinese official documents. The goal is to achieve an automatic resolution accuracy of 95%. By the end of 2021, this study will be conducted on the basis of 810,000 Chinese characters in Taiwan's government documents. In 2022, approximately 330,000 characters were added, 4,548 images were added, and approximately 1,140,000 characters were added. In 2020, the development of word segmentation technology with accuracy of 95% and the development of individual character recognition technology with accuracy of 89% will be carried out. In 2021 - 2022, the improvement of the accuracy of word recognition technology with accuracy of 93% will be discussed. The development of image recognition technology based on contextual information and 92% recognition accuracy were achieved. This paper discusses the evaluation of the collaborative support function of historical researchers from Taiwan research institutions. Analysis of temporal and spatial characteristics of bibliometric literature in Taiwan 1 academic paper, 2 domestic academic papers, 2 public tables and reports This research project aims to construct a framework for the development of technology for the future 1.25 million Chinese characters, and to construct a framework for the automatic interpretation of modern Chinese documents.
项目成果
期刊论文数量(8)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)
深層学習を用いた石碑文字のセグメンテーション
使用深度学习分割石刻
- DOI:
- 发表时间:2020
- 期刊:
- 影响因子:0
- 作者:守田直人;井上隆之介;山田雅之;中貴俊;兼松篤子;宮崎慎也;長谷川純一
- 通讯作者:長谷川純一
疑似石碑画像を用いた深層学習による石碑文字セグメンテーション
使用伪石碑图像进行深度学习的石碑字符分割
- DOI:
- 发表时间:2021
- 期刊:
- 影响因子:0
- 作者:松原悠人;山田雅之;中貴俊;兼松篤子;宮崎慎也;長谷川純一
- 通讯作者:長谷川純一
日本近代公文書自動解読のためのデータセットと文字列認識手法の開発
现代日本官方文件自动解码数据集及字符串识别方法开发
- DOI:
- 发表时间:2021
- 期刊:
- 影响因子:0
- 作者:田中隆;山田雅之;中貴俊;兼松篤子;宮崎慎也;長谷川純一
- 通讯作者:長谷川純一
Inscription Segmentation Using Synthetic Inscription Images for Text Detection at Stone Monuments
使用合成铭文图像进行铭文分割,用于石碑文本检测
- DOI:
- 发表时间:2021
- 期刊:
- 影响因子:0
- 作者:Naoto Morita;Ryunosuke Inoue;Masashi Yamada;Takatoshi Naka;Atsuko Kanematsu;Shinya Miyazaki;Junichi Hasegawa
- 通讯作者:Junichi Hasegawa
RoBERTaの近代文書への適用
RoBERTa 在现代文档中的应用
- DOI:
- 发表时间:2022
- 期刊:
- 影响因子:0
- 作者:亀山 京右;山田 雅之;中 貴俊;兼松 篤子;宮崎 慎也;長谷川 純一
- 通讯作者:長谷川 純一
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
数据更新时间:{{ journalArticles.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ monograph.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ sciAawards.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ conferencePapers.updateTime }}
{{ item.title }}
- 作者:
{{ item.author }}
数据更新时间:{{ patent.updateTime }}
山田 雅之其他文献
q-space imaging による霊長類コモンマーモセット脊髄損傷の解析
使用 q 空间成像分析灵长类常见狨猴脊髓损伤
- DOI:
- 发表时间:
2008 - 期刊:
- 影响因子:0
- 作者:
藤吉 兼浩;中村 雅也;疋島 啓吾;山田 雅之;北村 和也;八木 一夫;岡野 栄之;戸山 芳昭 - 通讯作者:
戸山 芳昭
キノリン酸代謝の低下はタウのリン酸化を亢進し、脳室拡大とドパミン神経期の低下と共に運動・認知機能の障害を惹起する
喹啉酸代谢减少会增加 tau 磷酸化,导致心室扩大、多巴胺能神经相位下降以及运动和认知功能受损。
- DOI:
- 发表时间:
2021 - 期刊:
- 影响因子:0
- 作者:
毛利 彰宏;新島 萌; 國澤 和生;高野 一輝;山田 雅之; 勅使河原 知明;窪田 悠力 ;平川 茉実; 森 優子; 星 雅人; 藤垣 英嗣; 山本 康子; 長谷川 眞也;倉橋 仁美;齋藤 邦明; 鍋島 俊隆 - 通讯作者:
鍋島 俊隆
初年次導入科目の授業デザインと情報リテラシー教育:三重大学のスタートアップセミナーにおける教員と図書館員の協働
一年级入门科目的班级设计和信息素养教育:三重大学创业研讨会上教师和图书馆员的合作
- DOI:
- 发表时间:
2016 - 期刊:
- 影响因子:0
- 作者:
福安 真奈;浦田 真由;中 貴俊;山田 雅之;遠藤 守;宮崎 慎也;安田 孝美;長澤多代 - 通讯作者:
長澤多代
小型霊長類コモンマーモセットの側頭骨局所解剖に関する画像解析
小型灵长类狨猴颞骨局部解剖的图像分析
- DOI:
- 发表时间:
2017 - 期刊:
- 影响因子:0
- 作者:
藤岡 正人;疋島 啓吾;岡野 ジェイムス洋尚;若林 健一郎;山田 雅之;大石 直樹;畑 純一;小川 郁 - 通讯作者:
小川 郁
山田 雅之的其他文献
{{
item.title }}
{{ item.translation_title }}
- DOI:
{{ item.doi }} - 发表时间:
{{ item.publish_year }} - 期刊:
- 影响因子:{{ item.factor }}
- 作者:
{{ item.authors }} - 通讯作者:
{{ item.author }}
{{ truncateString('山田 雅之', 18)}}的其他基金
日本近代公文書自動解読システムの構築
现代日本公文自动译码系统的构建
- 批准号:
23K20105 - 财政年份:2024
- 资助金额:
$ 10.98万 - 项目类别:
Grant-in-Aid for Scientific Research (B)
オンラインでの協調的なスキル獲得過程における動作と認知の可視化共有システムの開発
开发在线协作技能获取过程中可视化行为和认知的共享系统
- 批准号:
22K12315 - 财政年份:2022
- 资助金额:
$ 10.98万 - 项目类别:
Grant-in-Aid for Scientific Research (C)
Elucidation of the onset mechanism of dyschromia due to abnormal structural proteins in the epidermis
阐明表皮异常结构蛋白引起的色素异常的发病机制
- 批准号:
20K17338 - 财政年份:2020
- 资助金额:
$ 10.98万 - 项目类别:
Grant-in-Aid for Early-Career Scientists
拡散テンソル磁気共鳴画像法を用いた小型霊長類コモンマーモセットの脳内神経構造解析
使用扩散张量磁共振成像分析普通狨猴(一种小型灵长类动物)的大脑神经结构
- 批准号:
18700401 - 财政年份:2006
- 资助金额:
$ 10.98万 - 项目类别:
Grant-in-Aid for Young Scientists (B)
側鎖型液晶セグメントを有するブロック共重合体の液晶相転移挙動と高次構造の解析
侧链液晶链段嵌段共聚物的液晶相变行为和高阶结构分析
- 批准号:
97J04296 - 财政年份:1998
- 资助金额:
$ 10.98万 - 项目类别:
Grant-in-Aid for JSPS Fellows
知識情報処理技術を用いた非線形システムの解析法および同定法についての研究
利用知识信息处理技术的非线性系统分析与辨识方法研究
- 批准号:
07780315 - 财政年份:1995
- 资助金额:
$ 10.98万 - 项目类别:
Grant-in-Aid for Encouragement of Young Scientists (A)
相似海外基金
日本近代公文書自動解読システムの構築
现代日本公文自动译码系统的构建
- 批准号:
23K20105 - 财政年份:2024
- 资助金额:
$ 10.98万 - 项目类别:
Grant-in-Aid for Scientific Research (B)