Mensch vs. Maschine - Texterfassungsmethoden auf dem Prüfstand

Vorschau

PDF
index/docId/3643/file/Mensch_vs_Maschine.pdf - Veröffentlichte Version
Download (2MB)

URL:	https://madoc.bib.uni-mannheim.de/47421
URN:	urn:nbn:de:bsz:180-madoc-474217
Dokumenttyp:	Präsentation auf Konferenz
Erscheinungsjahr:	2018
Veranstaltungstitel:	107. Deutscher Bibliothekartag in Berlin 2018
Veranstaltungsort:	Berlin, Germany
Veranstaltungsdatum:	12.-15.06.2018
Verwandte URLs:	Organisation
Sprache der Veröffentlichung:	Deutsch
Einrichtung:	Zentrale Einrichtungen > UB Universitätsbibliothek
Lizenz:	Creative Commons Namensnennung 4.0 International (CC BY 4.0)
Fachgebiet:	020 Bibliotheks- und Informationswissenschaft
Freie Schlagwörter (Deutsch):	Digitalisierung; OCR; Strukturerfassung; Texterfassung; Forschungsdaten; Unternehmensdaten
Freie Schlagwörter (Englisch):	Digitization; Double Keying; Layout recognition; Text recognition; Structure recognition; Research data; Company data
Abstract:	Text- und Strukturerkennung sind bei Digitalisierungsvorhaben unerlässlich, um im Rahmen von Forschungsarbeiten Recherchen und Auswertungen auf effiziente Art und Weise zu ermöglichen. Eine Volltexterkennung inklusive der Erfassung von Strukturmerkmalen schreibt beispielsweise auch die DFG für Druckwerke ab Erscheinungsjahr 1850 folgerichtig verbindlich vor. Bei digitalisierten historischen Forschungsdaten ist darüber hinaus eine möglichst fein-granulare Strukturierung sinnvoll. Die Text- und Strukturerkennung ist damit eine umfassende Herausforderung und im Zuge eines Projekts muss entschieden werden, ob eine maschinelle Texterkennung (OCR) oder ein manuelles Erfassen der Texte (i.d.R. Double Keying) durchgeführt werden soll. Wichtige Faktoren sind hierbei die Güte der Text- und Strukturerkennung, Kosten, Nachnutzbarkeit usw. Anhand des DFG-Digitalisierungsprojekts "Aktienführer-Datenarchiv" (1870-2016) an der Universitätsbibliothek Mannheim sollen beide Methoden beleuchtet und ein Vergleich gezogen werden. In der ersten Projektphase (Erscheinungsjahre 1976-1999) wurde die Text- und Strukturerfassung mittels Double Keying-Verfahren durchgeführt, während in der zweiten Projektphase (Erscheinungsjahre 1953-1975) die maschinelle OCR und automatische Strukturierung für diese Aufgabe vorgezogen wird.