Automatisierte Optimierung und Strukturierung von OCR-Ergebnissen mit nachnutzbaren Werkzeugen


Kamlah, Jan ; Stegmüller, Johannes ; Schumm, Irene ; Zumstein, Philipp


[img]
Vorschau
PDF
2019-03-18-Kamlah-Zumstein.pdf - Veröffentlichte Version

Download (1MB)

URL: https://madoc.bib.uni-mannheim.de/48940
URN: urn:nbn:de:bsz:180-madoc-489400
Dokumenttyp: Präsentation auf Konferenz
Erscheinungsjahr: 2019
Veranstaltungstitel: 108. Deutscher Bibliothekartag 2019 = 7. Bibliothekskongress Leipzig
Veranstaltungsort: Leipzig, Germany
Veranstaltungsdatum: 18.-21.03.2019
Verwandte URLs:
Sprache der Veröffentlichung: Deutsch
Einrichtung: Zentrale Einrichtungen > UB Universitätsbibliothek
Lizenz: CC BY 4.0 Creative Commons Namensnennung 4.0 International (CC BY 4.0)
Fachgebiet: 004 Informatik
020 Bibliotheks- und Informationswissenschaft
Abstract: Bibliotheken leisten einen wichtigen Beitrag zur Digitalisierung des kulturellen Erbes und ermöglichen Forschenden weltweit den Zugang zu diesen Werken. Textbasierte Dokumente werden häufig zusätzlich durch OCR (optical character recognition) erschlossen. Dies ermöglicht eine Suche nach Stichwörtern im gesamten Inhalt sowie weitere Analysemöglichkeiten. Vielen Bibliotheken fehlt es jedoch an Know-how und Werkzeugen, um optimale OCR-Ergebnisse zu erzielen oder weitere Strukturerkennungsschritte selbstständig auszuführen. Im Zuge des DFG-finanzierten Digitalisierungsprojekts "Aktienführer-Datenarchiv II" wurden mehrere softwaretechnische Werkzeuge entwickelt, um in einem einheitlichen Workflow sowohl den Umgang mit den OCR-Daten zu vereinfachen als auch die Ergebnisse zu optimieren. Unter anderem werden dabei die OCR-Ergebnisse durch die Kombination der Ausgaben mehrerer OCR-Engines verbessert und eine Strukturerfassung im Volltext, inklusive Tabellenextraktion, vorgenommen.In diesem Beitrag werden die entwickelten Lösungsansätze und Tools vorgestellt. Um sie für ähnliche Projekte nachnutzbar und anpassbar zu machen, sind alle Tools als Open-Source-Software verfügbar.




Dieser Eintrag ist Teil der Universitätsbibliographie.

Das Dokument wird vom Publikationsserver der Universitätsbibliothek Mannheim bereitgestellt.




Metadaten-Export


Zitation


+ Suche Autoren in

+ Download-Statistik

Downloads im letzten Jahr

Detaillierte Angaben



Sie haben einen Fehler gefunden? Teilen Sie uns Ihren Korrekturwunsch bitte hier mit: E-Mail


Actions (login required)

Eintrag anzeigen Eintrag anzeigen