Development of a web-based system for the postcorrection of historical OCR'ed texts

开发基于网络的系统,用于对历史 OCR 文本进行后校正

基本信息

项目摘要

This projects aims to develop a web based tool and system for the postcorrection ofOCR recognized historical texts. As any OCR result has its share of errors,the usefulness of OCR text output for many applications in the humanities crucially dependson a postcorrection facility. A standalone open source Java (non-web-based) version of such a postcorrectiontool named PoCoTo (Post-Correction Tool) was developed at CIS featuringadvanced language technology by which whole error series of documents withhistorical spellings can be displayed in a concordance view of OCR output and original image.PoCoTo has already made known to a wide public and is being used in Digital Humanities projectsin Germany for postcorrection purposes. Due to specific demands from its users we want to develop and distribute it as an open source web based, multi-user system. Instead of needingto be locally installed on one's own computer, it will be developed into a component of a server basedinfrastructure to support an institutional OCR workflow.Apart from this infrastructural change, the following additional goals will be pursued:1. User corrections will get used to calculate ever better statistical error profiles of putative errors series in the background, thus speeding up the correction. 2. Some simple augmentations of a Latin full form lexicon will provide the foundations to make the language technology (statistical error profiling) fully applicable to the postcorrection of the OCR output of Latin texts. 3. The flexibility of the system with regard to OCR engines will be increased by making it possible to treat the output of the open source OCR system OCRopus in addition to Abbyy and Tesseract output. Should the need arise, further improvements of the system and cooperations with other groups will be planned in a follow-up proposal within the context of the forthcoming DFG initiative for historical OCR.
该项目旨在开发一个基于网络的工具和系统,用于OCR识别的历史文本的后校正。由于任何OCR结果都有其错误的份额,OCR文本输出的有用性在人文学科的许多应用程序至关重要地依赖于一个postcorrection设施。CIS开发了一个名为PoCoTo(Post-Correction Tool)的独立开源Java(非基于Web)版本的Postcorrection工具,该工具采用先进的语言技术,可以在OCR输出和原始图像的一致视图中显示具有历史拼写的文档的整个错误系列。PoCoTo已经为广大公众所知,并正在德国的数字人文项目中用于Postcorrection目的。由于其用户的具体需求,我们希望开发和分发它作为一个开源的基于Web的,多用户系统。这套系统将发展成为一个以伺服器为基础的基础设施的一部分,以支援机构的光学字符识别工作流程,而无须安装在个人电脑上。用户更正将用于计算更好的统计误差 背景中假定误差系列的分布, 从而加速校正。 2.一些简单的扩充拉丁语完整形式的词汇将提供基础 使语言技术(统计错误分析)完全适用于 对拉丁文文本的OCR输出进行后期校正。 3.系统关于OCR引擎的灵活性将通过以下方式增加: 可以处理开源OCR系统OCRopus的输出, 艾比和宇宙魔方的输出如有需要,可进一步改善该系统 与其他小组的合作将在《公约》范围内的一项后续建议中加以规划。 即将推出的DFG历史OCR计划。

项目成果

期刊论文数量(0)
专著数量(0)
科研奖励数量(0)
会议论文数量(0)
专利数量(0)

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

数据更新时间:{{ journalArticles.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ monograph.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ sciAawards.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ conferencePapers.updateTime }}

{{ item.title }}
  • 作者:
    {{ item.author }}

数据更新时间:{{ patent.updateTime }}

Professor Dr. Klaus U. Schulz其他文献

Professor Dr. Klaus U. Schulz的其他文献

{{ item.title }}
{{ item.translation_title }}
  • DOI:
    {{ item.doi }}
  • 发表时间:
    {{ item.publish_year }}
  • 期刊:
  • 影响因子:
    {{ item.factor }}
  • 作者:
    {{ item.authors }}
  • 通讯作者:
    {{ item.author }}

{{ truncateString('Professor Dr. Klaus U. Schulz', 18)}}的其他基金

Training of machine-learning based procedures for automated postcorrection of OCRed historical printings
基于机器学习的程序培训,用于 ORed 历史打印的自动后期校正
  • 批准号:
    431091758
  • 财政年份:
    2020
  • 资助金额:
    --
  • 项目类别:
    Research Grants
Automated postcorrection of OCRed historical printings with integrated optional interactive postcorrection
通过集成的可选交互式后期校正对 ORed 历史打印进行自动后期校正
  • 批准号:
    393215159
  • 财政年份:
    2018
  • 资助金额:
    --
  • 项目类别:
    Research data and software (Scientific Library Services and Information Systems)
Domänen- und dokumentenadaptive Verfahren zur Nachkorrektur von OCR-Ergebnissen
用于 OCR 结果后校正的域和文档自适应程序
  • 批准号:
    5419670
  • 财政年份:
    2004
  • 资助金额:
    --
  • 项目类别:
    Research Grants
Erweiterung eines Abfragemodells für XML-Daten zur interaktiven Exploration
扩展 XML 数据的查询模型以进行交互式探索
  • 批准号:
    5231068
  • 财政年份:
    2000
  • 资助金额:
    --
  • 项目类别:
    Research Grants

相似国自然基金

面向Web3D虚拟学习空间的教育智能体系统构建与应用
  • 批准号:
    2025JJ80330
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
基于Web3D元宇宙的实时渲染关键技术研究和应用
  • 批准号:
  • 批准年份:
    2025
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
基于语义理解的多轮多约束Web服务推荐技术
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
Web大数据环境下基于迁移学习的跨领域推荐研究
  • 批准号:
  • 批准年份:
    2024
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
数据智能驱动的泛在Web应用服务质量优化方法研究
  • 批准号:
  • 批准年份:
    2021
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于侧信道分析的Web站点指纹识别技术研究
  • 批准号:
  • 批准年份:
    2021
  • 资助金额:
    30 万元
  • 项目类别:
    青年科学基金项目
基于时间意图的地表覆盖Web 信息发现方法研究
  • 批准号:
    2021JJ40721
  • 批准年份:
    2021
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目
恶劣条件下Web服务QoS预测与QoS确保的服务组合卸载方法研究
  • 批准号:
  • 批准年份:
    2021
  • 资助金额:
    58 万元
  • 项目类别:
    面上项目
多模态Web信息检索排序学习方法研究
  • 批准号:
  • 批准年份:
    2021
  • 资助金额:
    10.0 万元
  • 项目类别:
    省市级项目
基于行为图谱的大规模web流量群体识别算法研究与应用
  • 批准号:
    2020JJ7015
  • 批准年份:
    2020
  • 资助金额:
    0.0 万元
  • 项目类别:
    省市级项目

相似海外基金

A Holistic Approach to Improve Learning and Motivation in Introductory Programming with Automated Grading, Web-based Team Support, and Game Development
通过自动评分、基于网络的团队支持和游戏开发提高入门编程学习和动机的整体方法
  • 批准号:
    2345097
  • 财政年份:
    2024
  • 资助金额:
    --
  • 项目类别:
    Standard Grant
Continuous development of nTracer2 and its deployment at NIH image repositories
nTracer2 的持续开发及其在 NIH 图像存储库中的部署
  • 批准号:
    10726178
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
Development and evaluation of a web-based decision-making aid for men undergoing infertility treatment
为接受不育治疗的男性开发和评估基于网络的决策辅助工具
  • 批准号:
    23K10097
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Scientific Research (C)
MyPrEP Plus: Development and Pilot Testing of Novel Pre-Exposure Prophylaxis Support Tools for Transgender Women
MyPrEP Plus:针对跨性别女性的新型暴露前预防支持工具的开发和试点测试
  • 批准号:
    10618102
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
Development of mental management strategies for healthcare workers using a web-based learning program
使用基于网络的学习计划为医护人员制定心理管理策略
  • 批准号:
    23K12838
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
    Grant-in-Aid for Early-Career Scientists
Development of an online, theory-based intervention to reduce e-cigarette use and susceptibility to smoking in young adults: A pilot study
开发基于理论的在线干预措施,以减少年轻人的电子烟使用和吸烟易感性:一项试点研究
  • 批准号:
    10664232
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
Development and pilot testing of a mobile health application to improve HIV prevention and substance use treatment service access among women involved in the carceral system
开发并试点测试移动医疗应用程序,以改善监狱系统中妇女的艾滋病毒预防和药物滥用治疗服务的获取
  • 批准号:
    10619999
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
Development of a high precision and high order DNA counting platform
高精度、高阶DNA计数平台的开发
  • 批准号:
    10603953
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
Development and Evaluation of School-based Digital Adolescent Oral Health Promotion Program for the Reduction of Oral Health Disparities
旨在减少口腔健康差异的校本数字青少年口腔健康促进计划的开发和评估
  • 批准号:
    10745029
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
Research and development of an adverse outcome pathway-focused mechanistic inference tool for 'omics data using semantic knowledge graphs
使用语义知识图研究和开发针对“组学数据”的以不良结果途径为中心的机械推理工具
  • 批准号:
    10761637
  • 财政年份:
    2023
  • 资助金额:
    --
  • 项目类别:
{{ showInfoDetail.title }}

作者:{{ showInfoDetail.author }}

知道了