Vom Bild zum Text. Automatisierte Texterkennung in historischen Drucken mit der freien Software Tesseract


Weil, Stefan ; Zumstein, Philipp


[img]
Vorschau
PDF
index/docId/16351/file/Bibliothekartag-2019.pdf - Veröffentlichte Version

Download (1MB)

URL: https://nbn-resolving.org/urn:nbn:de:0290-opus4-16...
URN: urn:nbn:de:bsz:180-madoc-673377
Dokumenttyp: Präsentation auf Konferenz
Erscheinungsjahr: 2019
Veranstaltungstitel: 108. Deutscher Bibliothekartag 2019 = 7. Bibliothekskongress Leipzig
Veranstaltungsort: Leipzig, Germany
Veranstaltungsdatum: 18.-21.03.2019
Verwandte URLs:
Sprache der Veröffentlichung: Deutsch
Einrichtung: Zentrale Einrichtungen > UB Universitätsbibliothek
Lizenz: CC BY 4.0 Creative Commons Namensnennung 4.0 International (CC BY 4.0)
Fachgebiet: 004 Informatik
020 Bibliotheks- und Informationswissenschaft
Normierte Schlagwörter (SWD): Optische Zeichenerkennung , Open Source
Freie Schlagwörter (Deutsch): OCR, Tesseract
Freie Schlagwörter (Englisch): OCR, Tesseract
Abstract: Viele Bibliotheken und Archive stellen ihre historischen Druckwerke zwar bereits digitalisiert im Internet zur Verfügung, bieten dabei jedoch keinen Volltext an. Erst durchsuchbare Texte, die auch maschinell weiterverarbeitet werden können, erschließen den historischen Schatz jedoch wirklich gut und machen Alte Drucke zu modernen Forschungsdaten. Wer dies erkannt hat, verlässt sich häufig noch auf einen externen Dienstleister und traut sich nicht, die automatisierte Texterkennung per Software, auch OCR (Optical Character Recognition, also optische Zeichenerkennung), selbst durchzuführen. Im Hands-on-Labor hat jeder die Gelegenheit, auf dem eigenen Notebook die Software Tesseract zu installieren und erste Erfahrungen mit der automatisierten Texterkennung zu sammeln. Als Vorlage können mitgebrachte Scans von Seiten aus historischen Büchern oder Beispiele aus dem Internet dienen. Tesseract entstand in den 1980er Jahren, wird aber bis heute aktiv weiterentwickelt und gehört zu den leistungsfähigsten Produkten für OCR. Deshalb steht es auch im Fokus eines der Modulprojekte von OCR-D, dem Koordinierungsprojekt zur Weiterentwicklung von Verfahren der Optical Character Recognition (OCR) der Deutschen Forschungsgemeinschaft (DFG).
Übersetzung des Abstracts: Many libraries and archives already make their historical printed works available in digitized form on the Internet, but do not offer full text. Only searchable texts that can also be processed by machine truly unlock the historical treasure trove and turn old prints into modern research data. Those who have recognized this often still rely on an external service provider and do not dare to perform automated text recognition using software, also known as OCR (optical character recognition), themselves. In the hands-on lab, everyone has the opportunity to install the Tesseract software on their own notebook and gain initial experience with automated text recognition. Scans of pages from historical books or examples from the Internet can be used as templates. Tesseract was developed in the 1980s, but is still being actively developed today and is one of the most powerful products for OCR. That is why it is also the focus of one of the module projects of OCR-D, the coordination project for the further development of optical character recognition (OCR) methods of the German Research Foundation (DFG). (Englisch)


Ökonomische Nachhaltigkeit


Dieser Eintrag ist Teil der Universitätsbibliographie.

Das Dokument wird vom Publikationsserver der Universitätsbibliothek Mannheim bereitgestellt.




Metadaten-Export


Zitation


+ Suche Autoren in

+ Download-Statistik

Downloads im letzten Jahr

Detaillierte Angaben



Sie haben einen Fehler gefunden? Teilen Sie uns Ihren Korrekturwunsch bitte hier mit: E-Mail


Actions (login required)

Eintrag anzeigen Eintrag anzeigen