Abschlussbericht zu DFG-Projekt "Workflow für werkspezifisches Training auf Basis generischer Modelle mit OCR-D sowie Ground-Truth-Aufwertung"

Weil, Stefan ; Kamlah, Jan ; Schmidt, Thomas

Vorschau

PDF (DFG-Projekt Abschlussbericht)
DFG-Abschlussbericht-OCR-D-Training.pdf - Veröffentlichte Version
Download (300kB)

Körperschaften:	Universitätsbibliothek Mannheim
Mitwirkende (z.B. Übers., Bearb.):	Gehrlein, Sabine
URN:	urn:nbn:de:bsz:180-madoc-671740
Dokumenttyp:	Bericht
Erscheinungsjahr:	2024
Ort der Veröffentlichung:	Mannheim
Verwandte URLs:	https://gepris.dfg.de/gepris/projekt/460...
Sprache der Veröffentlichung:	Deutsch
Einrichtung:	Zentrale Einrichtungen > UB Universitätsbibliothek
Lizenz:	Creative Commons Namensnennung 4.0 International (CC BY 4.0)
Fachgebiet:	004 Informatik 020 Bibliotheks- und Informationswissenschaft
Normierte Schlagwörter (SWD):	Optische Zeichenerkennung , Open Source
Freie Schlagwörter (Deutsch):	OCR
Freie Schlagwörter (Englisch):	OCR
Abstract:	Die DFG strebt mit der „Koordinierten Förderinitiative zur Weiterentwicklung von Verfahren der Optical Character Recognition“ (OCR-D) die Transformation der im deutschen Sprachbereich erschienenen Drucke des 16. bis 18. Jahrhunderts (VD 16, VD 17 und VD 18) in maschinenlesbare Form an. Das Projekt war als Modulprojekt Teil der 3. Förderphase und hatte zum Ziel, die Texterkennung durch neue generische Modelle für die eingesetzten OCR-Programme weiter zu verbessern. Zusätzlich sollte es Einrichtungen ermöglichen, die Texterkennung bei Bedarf an einzelne Werke anzupassen, indem sie mit überschaubarem Aufwand die bereitgestellten generischen Modelle werkspezifisch nachtrainieren. Voraussetzung für neue generische Modelle, die besser sein sollten als die bisherigen, waren Trainingsdaten in bestmöglicher Qualität. Mit verbesserten und erweiterten Trainingsdaten konnten neue generische Modelle für die OCR-Programme Kraken, Calamari und Tesseract trainiert werden. Dabei hat das für Kraken trainierte Modell german_print inzwischen schon vielfach seine sehr gute Erkennungsqualität und Nachnutzbarkeit bewiesen. Für das gleichnamige Tesseract-Modell ist zu erwarten, dass es seine Vorgängermodelle schon bald ablösen wird. Zusätzlich konnten ein experimentelles Kraken-Modell german_handwriting zur Erkennung von Handschriften und ein domainspezifisches Modell german_newspapers für Zeitungen trainiert werden. Die neuen Modelle für Kraken und Tesseract eignen sich sehr gut für Nachtrainings mit dem Ziel, die Zeichenerkennung zu erweitern oder die Qualität zu verbessern. Mit der webbasierten Open-Source-Transkriptionsplattform eScriptorium wurden so nach kurzer Einweisung schon zahlreiche Modelle für Kraken auch durch Nutzende ohne spezielle Vorkenntnisse nachtrainiert. Eine noch experimentelle neu entwickelte Erweiterung für eScriptorium bietet die gleiche Funktionalität für Tesseract, so dass in Zukunft auch dafür Nachtrainings einfach möglich werden.
Übersetzter Titel:	Final report on DFG project "Workflow for work-specific training based on generic models with OCR-D and ground truth enhancement" (Englisch)
Übersetzung des Abstracts:	With the DFG funded coordinated "Initiative for Optical Character Recognition Development" (OCR-D), the DFG is aiming to transform VD prints (16th-19th century) into machine-readable form. The project was part of the third funding phase as a module project and aimed to further improve text recognition through new generic models for the OCR programs used. In addition, it should enable institutions to adapt text recognition to individual works if necessary by retraining the generic models provided on a work-specific basis with manageable effort. The prerequisite for new generic models, which had to be better than the previous models, was training data of the best possible quality. New generic models for the OCR programs Kraken, Calamari and Tesseract could be trained with improved and extended training data. The german_print model trained for Kraken has already proven its very good recognition quality and reusability many times over. It is expected that the Tesseract model of the same name will soon replace its predecessors. For Kraken, an experimental model german_handwriting could also be trained to recognize handwritten text. A domain-specific model german_newspapers was trained for newspapers. The new models for Kraken and Tesseract are very well suited for follow-up training with the aim of improving character recognition or quality. With the web based open-source transcription platform eScriptorium, numerous models for Kraken have already been retrained, even by users without any special prior knowledge after a brief introduction. A newly developed extension for eScriptorium, which is still experimental, offers the same functionality for Tesseract, so that retraining will also be possible for Tesseract in the future. (Englisch)
Zusätzliche Informationen:	Die Verfasserschaft ist nicht im Dokument genannt.