Abschlussbericht zu DFG-Projekt "Integration von Kitodo und OCR-D zur produktiven Massendigitalisierung"
Sommer, Erik
Weil, Stefan
Strötgen, Robert
Sachunsky, Robert
Weigelt, Markus
Sidiropoulos, Christos
Kotzyba, Michael
Rykhlinskaya, Ekatarina
Marcus, Sven
Corporate creators:
Sächsische Landesbibliothek – Staats- und Universitätsbibliothek Dresden
Universitätsbibliothek Mannheim
Universitätsbibliothek Braunschweig
Document Type:
Year of publication:
Place of publication:
Related URLs:
Publication language:
Zentrale Einrichtungen > University Library
Creative Commons Attribution 4.0 International (CC BY 4.0)
004 Computer science, internet 020 Library and information sciences
Subject headings (SWD):
Optische Zeichenerkennung
Individual keywords (German):
Kitodo , OCR , Texterkennung
Keywords (English):
Kitodo , OCR , text recognition
Die DFG strebt mit der „Koordinierten Förderinitiative zur Weiterentwicklung von Verfahren der Optical Character Recognition“ (OCR-D) die Transformation der im deutschen Sprachbereich erschienenen Drucke des 16. bis 18. Jahrhunderts (VD 16, VD 17 und VD 18) in maschinenlesbare Form an. Das vorliegende Projekt ist Teil der dritten Förderphase, in der die bisher entwickelte Technologie in die praktische Anwendung integriert werden sollte. Im Fokus stand daher die Integration von OCR-D in die Arbeitsabläufe bei der Digitalisierung mit der Webapplikation Kitodo.Production und in die Visualisierung der Digitalisate mit Kitodo.Presentation. Das Projekt wurde in ständigem Kontakt mit den potenziellen Endnutzern aus der Community entwickelt. Um ihre Wünsche und Bedürfnisse zu berücksichtigen, wurden mehrere Umfragen, Konferenzen und kontinuierliche praktische Tests vorbereitet und durchgeführt. Im Ergebnis entstand ein passendes Anwendungsschema und ein produktiver Workflow für die automatische Texterkennung und Publikation, der von anderen Kitodo-Anwendern nachgenutzt werden kann. Kitodo.Presentation und der darauf aufbauende DFG-Viewer können dank der Projektergebnisse nun für beliebige Digitalisate direkt Volltexte erzeugen, wenn noch keine OCR-Ergebnisse vorliegen oder diese nicht die gewünschte Qualität aufweisen. Die öffentliche Testinstanz des DFG-Viewers an der UB Mannheim bietet hierfür einen OCR-D-Prozess an, der den im Projekt entwickelten OCR-Server nutzt. Alternativ können OCR-Prozesse mit Tesseract oder Kraken gewählt werden.
Translation of the title:
Final report on the DFG project ‘Integration of Kitodo and OCR-D for productive mass digitisation'
Translation of the abstract:
With the “Coordinated Funding Initiative for the Further Development of Optical Character Recognition Methods” (OCR-D), the DFG is striving to transform the prints published in the German language area from the 16th to 18th centuries (VD 16, VD 17 and VD 18) into machine-readable form. The present project is part of the third funding phase, in which the technology developed so far should be integrated into practical application. The focus is therefore on the integration of OCR-D into the workflows for digitization with the web application Kitodo.Production and in the visualization of digitization with Kitodo.Presentation. The project was developed in constant contact with potential end users from the community. To consider their wishes and needs, several surveys, conferences and continuous practical tests were prepared and carried out. The result was a suitable application scheme and a productive workflow for automatic text recognition and publication that can be reused by other Kitodo users. Thanks to the project results, Kitodo.Presentation, and the DFG Viewer based on it, can now directly generate full texts for any digital copy if OCR results are not yet available or do not have the desired quality. The public test instance of the DFG Viewer at the UB Mannheim offers an OCR-D process for this purpose, which uses the OCR server developed in the project. Alternatively, OCR processes with Tesseract or Kraken can be chosen.
| Dieser Eintrag ist Teil der Universitätsbibliographie. |
| Das Dokument wird vom Publikationsserver der Universitätsbibliothek Mannheim bereitgestellt. |
Sommer, Erik ; Weil, Stefan ORCID: 0000-0002-0524-9898 ; Strötgen, Robert ; Sachunsky, Robert ; Weigelt, Markus ; Sidiropoulos, Christos ORCID: 0009-0001-3341-3149 ; Kotzyba, Michael ; Rykhlinskaya, Ekatarina ; Marcus, Sven
