Abschlussbericht zu DFG-Projekt "Workflow für werkspezifisches Training auf Basis generischer Modelle mit OCR-D sowie Ground-Truth-Aufwertung"


Weil, Stefan ; Kamlah, Jan ; Schmidt, Thomas


[img] PDF (DFG-Projekt Abschlussbericht)
DFG-Abschlussbericht-OCR-D-Training.pdf - Published

Download (300kB)

Contributors
(e.g. translator, editor)
:
Gehrlein, Sabine
URN: urn:nbn:de:bsz:180-madoc-671740
Document Type: Report
Year of publication: 2024
Place of publication: Mannheim
Related URLs:
Publication language: German
Institution: Zentrale Einrichtungen > University Library
License: CC BY 4.0 Creative Commons Attribution 4.0 International (CC BY 4.0)
Subject: 004 Computer science, internet
020 Library and information sciences
Subject headings (SWD): Optische Zeichenerkennung , Open Source
Individual keywords (German): OCR
Keywords (English): OCR
Abstract: Die DFG strebt mit der „Koordinierten Förderinitiative zur Weiterentwicklung von Verfahren der Optical Character Recognition“ (OCR-D) die Transformation der im deutschen Sprachbereich erschienenen Drucke des 16. bis 18. Jahrhunderts (VD 16, VD 17 und VD 18) in maschinenlesbare Form an. Das Projekt war als Modulprojekt Teil der 3. Förderphase und hatte zum Ziel, die Texterkennung durch neue generische Modelle für die eingesetzten OCR-Programme weiter zu verbessern. Zusätzlich sollte es Einrichtungen ermöglichen, die Texterkennung bei Bedarf an einzelne Werke anzupassen, indem sie mit überschaubarem Aufwand die bereitgestellten generischen Modelle werkspezifisch nachtrainieren. Voraussetzung für neue generische Modelle, die besser sein sollten als die bisherigen, waren Trainingsdaten in bestmöglicher Qualität. Mit verbesserten und erweiterten Trainingsdaten konnten neue generische Modelle für die OCR-Programme Kraken, Calamari und Tesseract trainiert werden. Dabei hat das für Kraken trainierte Modell german_print inzwischen schon vielfach seine sehr gute Erkennungsqualität und Nachnutzbarkeit bewiesen. Für das gleichnamige Tesseract-Modell ist zu erwarten, dass es seine Vorgängermodelle schon bald ablösen wird. Zusätzlich konnten ein experimentelles Kraken-Modell german_handwriting zur Erkennung von Handschriften und ein domainspezifisches Modell german_newspapers für Zeitungen trainiert werden. Die neuen Modelle für Kraken und Tesseract eignen sich sehr gut für Nachtrainings mit dem Ziel, die Zeichenerkennung zu erweitern oder die Qualität zu verbessern. Mit der webbasierten Open-Source-Transkriptionsplattform eScriptorium wurden so nach kurzer Einweisung schon zahlreiche Modelle für Kraken auch durch Nutzende ohne spezielle Vorkenntnisse nachtrainiert. Eine noch experimentelle neu entwickelte Erweiterung für eScriptorium bietet die gleiche Funktionalität für Tesseract, so dass in Zukunft auch dafür Nachtrainings einfach möglich werden.
Translation of the title: Final report on DFG project "Workflow for work-specific training based on generic models with OCR-D and ground truth enhancement" (English)
Translation of the abstract: With the DFG funded coordinated "Initiative for Optical Character Recognition Development" (OCR-D), the DFG is aiming to transform VD prints (16th-19th century) into machine-readable form. The project was part of the third funding phase as a module project and aimed to further improve text recognition through new generic models for the OCR programs used. In addition, it should enable institutions to adapt text recognition to individual works if necessary by retraining the generic models provided on a work-specific basis with manageable effort. The prerequisite for new generic models, which had to be better than the previous models, was training data of the best possible quality. New generic models for the OCR programs Kraken, Calamari and Tesseract could be trained with improved and extended training data. The german_print model trained for Kraken has already proven its very good recognition quality and reusability many times over. It is expected that the Tesseract model of the same name will soon replace its predecessors. For Kraken, an experimental model german_handwriting could also be trained to recognize handwritten text. A domain-specific model german_newspapers was trained for newspapers. The new models for Kraken and Tesseract are very well suited for follow-up training with the aim of improving character recognition or quality. With the web based open-source transcription platform eScriptorium, numerous models for Kraken have already been retrained, even by users without any special prior knowledge after a brief introduction. A newly developed extension for eScriptorium, which is still experimental, offers the same functionality for Tesseract, so that retraining will also be possible for Tesseract in the future. (English)
Additional information: Die Verfasserschaft ist nicht im Dokument genannt.


SDG 4: Quality Education


Dieser Eintrag ist Teil der Universitätsbibliographie.

Das Dokument wird vom Publikationsserver der Universitätsbibliothek Mannheim bereitgestellt.




Metadata export


Citation


+ Search Authors in

+ Download Statistics

Downloads per month over past year

View more statistics



You have found an error? Please let us know about your desired correction here: E-Mail


Actions (login required)

Show item Show item