Mensch vs. Maschine - Texterfassungsmethoden auf dem Prüfstand


Schumm, Irene ; Zumstein, Philipp


[img]
Preview
PDF
index/docId/3643/file/Mensch_vs_Maschine.pdf - Published

Download (2MB)

URL: https://madoc.bib.uni-mannheim.de/47421
URN: urn:nbn:de:bsz:180-madoc-474217
Document Type: Conference presentation
Year of publication: 2018
Conference title: 107. Deutscher Bibliothekartag in Berlin 2018
Location of the conference venue: Berlin, Germany
Date of the conference: 12.-15.06.2018
Related URLs:
Publication language: German
Institution: Zentrale Einrichtungen > University Library
License: CC BY 4.0 Creative Commons Attribution 4.0 International (CC BY 4.0)
Subject: 020 Library and information sciences
Individual keywords (German): Digitalisierung; OCR; Strukturerfassung; Texterfassung; Forschungsdaten; Unternehmensdaten
Keywords (English): Digitization; Double Keying; Layout recognition; Text recognition; Structure recognition; Research data; Company data
Abstract: Text- und Strukturerkennung sind bei Digitalisierungsvorhaben unerlässlich, um im Rahmen von Forschungsarbeiten Recherchen und Auswertungen auf effiziente Art und Weise zu ermöglichen. Eine Volltexterkennung inklusive der Erfassung von Strukturmerkmalen schreibt beispielsweise auch die DFG für Druckwerke ab Erscheinungsjahr 1850 folgerichtig verbindlich vor. Bei digitalisierten historischen Forschungsdaten ist darüber hinaus eine möglichst fein-granulare Strukturierung sinnvoll. Die Text- und Strukturerkennung ist damit eine umfassende Herausforderung und im Zuge eines Projekts muss entschieden werden, ob eine maschinelle Texterkennung (OCR) oder ein manuelles Erfassen der Texte (i.d.R. Double Keying) durchgeführt werden soll. Wichtige Faktoren sind hierbei die Güte der Text- und Strukturerkennung, Kosten, Nachnutzbarkeit usw. Anhand des DFG-Digitalisierungsprojekts "Aktienführer-Datenarchiv" (1870-2016) an der Universitätsbibliothek Mannheim sollen beide Methoden beleuchtet und ein Vergleich gezogen werden. In der ersten Projektphase (Erscheinungsjahre 1976-1999) wurde die Text- und Strukturerfassung mittels Double Keying-Verfahren durchgeführt, während in der zweiten Projektphase (Erscheinungsjahre 1953-1975) die maschinelle OCR und automatische Strukturierung für diese Aufgabe vorgezogen wird.




Dieser Eintrag ist Teil der Universitätsbibliographie.

Das Dokument wird vom Publikationsserver der Universitätsbibliothek Mannheim bereitgestellt.




Metadata export


Citation


+ Search Authors in

+ Download Statistics

Downloads per month over past year

View more statistics



You have found an error? Please let us know about your desired correction here: E-Mail


Actions (login required)

Show item Show item