Automatisierte Optimierung und Strukturierung von OCR-Ergebnissen mit nachnutzbaren Werkzeugen


Kamlah, Jan ; Stegmüller, Johannes ; Schumm, Irene ; Zumstein, Philipp


[img]
Preview
PDF
2019-03-18-Kamlah-Zumstein.pdf - Published

Download (1MB)

URL: https://madoc.bib.uni-mannheim.de/48940
URN: urn:nbn:de:bsz:180-madoc-489400
Document Type: Conference presentation
Year of publication: 2019
Conference title: 108. Deutscher Bibliothekartag 2019 = 7. Bibliothekskongress Leipzig
Location of the conference venue: Leipzig, Germany
Date of the conference: 18.-21. März 2019
Related URLs: https://opus4.kobv.de/opus4-bib-info/frontdoor/index/index/docId/16425
Publication language: German
Institution: Zentrale Einrichtungen > University Library
License: CC BY 4.0
Subject: 004 Computer science, internet
020 Library and information sciences
Abstract: Bibliotheken leisten einen wichtigen Beitrag zur Digitalisierung des kulturellen Erbes und ermöglichen Forschenden weltweit den Zugang zu diesen Werken. Textbasierte Dokumente werden häufig zusätzlich durch OCR (optical character recognition) erschlossen. Dies ermöglicht eine Suche nach Stichwörtern im gesamten Inhalt sowie weitere Analysemöglichkeiten. Vielen Bibliotheken fehlt es jedoch an Know-how und Werkzeugen, um optimale OCR-Ergebnisse zu erzielen oder weitere Strukturerkennungsschritte selbstständig auszuführen. Im Zuge des DFG-finanzierten Digitalisierungsprojekts "Aktienführer-Datenarchiv II" wurden mehrere softwaretechnische Werkzeuge entwickelt, um in einem einheitlichen Workflow sowohl den Umgang mit den OCR-Daten zu vereinfachen als auch die Ergebnisse zu optimieren. Unter anderem werden dabei die OCR-Ergebnisse durch die Kombination der Ausgaben mehrerer OCR-Engines verbessert und eine Strukturerfassung im Volltext, inklusive Tabellenextraktion, vorgenommen.In diesem Beitrag werden die entwickelten Lösungsansätze und Tools vorgestellt. Um sie für ähnliche Projekte nachnutzbar und anpassbar zu machen, sind alle Tools als Open-Source-Software verfügbar.

Dieser Eintrag ist Teil der Universitätsbibliographie.

Das Dokument wird vom Publikationsserver der Universitätsbibliothek Mannheim bereitgestellt.




+ Citation Example and Export

Kamlah, Jan ; Stegmüller, Johannes ; Schumm, Irene ORCID: 0000-0002-0167-3683 ; Zumstein, Philipp ORCID: 0000-0002-6485-9434 Automatisierte Optimierung und Strukturierung von OCR-Ergebnissen mit nachnutzbaren Werkzeugen. Open Access (2019) 108. Deutscher Bibliothekartag 2019 = 7. Bibliothekskongress Leipzig (Leipzig, Germany) [Conference presentation]
[img]
Preview


+ Search Authors in

+ Download Statistics

Downloads per month over past year

View more statistics



You have found an error? Please let us know about your desired correction here: E-Mail


Actions (login required)

Show item Show item