Mensch vs. Maschine - Texterfassungsmethoden auf dem Prüfstand


Schumm, Irene ; Zumstein, Philipp


[img]
Vorschau
PDF
index/docId/3643/file/Mensch_vs_Maschine.pdf - Veröffentlichte Version

Download (2MB)

URL: https://madoc.bib.uni-mannheim.de/47421
URN: urn:nbn:de:bsz:180-madoc-474217
Dokumenttyp: Präsentation auf Konferenz
Erscheinungsjahr: 2018
Veranstaltungstitel: 107. Deutscher Bibliothekartag in Berlin 2018
Veranstaltungsort: Berlin, Germany
Veranstaltungsdatum: 12.-15.06.2018
Verwandte URLs:
Sprache der Veröffentlichung: Deutsch
Einrichtung: Zentrale Einrichtungen > UB Universitätsbibliothek
Lizenz: CC BY 4.0 Creative Commons Namensnennung 4.0 International (CC BY 4.0)
Fachgebiet: 020 Bibliotheks- und Informationswissenschaft
Freie Schlagwörter (Deutsch): Digitalisierung; OCR; Strukturerfassung; Texterfassung; Forschungsdaten; Unternehmensdaten
Freie Schlagwörter (Englisch): Digitization; Double Keying; Layout recognition; Text recognition; Structure recognition; Research data; Company data
Abstract: Text- und Strukturerkennung sind bei Digitalisierungsvorhaben unerlässlich, um im Rahmen von Forschungsarbeiten Recherchen und Auswertungen auf effiziente Art und Weise zu ermöglichen. Eine Volltexterkennung inklusive der Erfassung von Strukturmerkmalen schreibt beispielsweise auch die DFG für Druckwerke ab Erscheinungsjahr 1850 folgerichtig verbindlich vor. Bei digitalisierten historischen Forschungsdaten ist darüber hinaus eine möglichst fein-granulare Strukturierung sinnvoll. Die Text- und Strukturerkennung ist damit eine umfassende Herausforderung und im Zuge eines Projekts muss entschieden werden, ob eine maschinelle Texterkennung (OCR) oder ein manuelles Erfassen der Texte (i.d.R. Double Keying) durchgeführt werden soll. Wichtige Faktoren sind hierbei die Güte der Text- und Strukturerkennung, Kosten, Nachnutzbarkeit usw. Anhand des DFG-Digitalisierungsprojekts "Aktienführer-Datenarchiv" (1870-2016) an der Universitätsbibliothek Mannheim sollen beide Methoden beleuchtet und ein Vergleich gezogen werden. In der ersten Projektphase (Erscheinungsjahre 1976-1999) wurde die Text- und Strukturerfassung mittels Double Keying-Verfahren durchgeführt, während in der zweiten Projektphase (Erscheinungsjahre 1953-1975) die maschinelle OCR und automatische Strukturierung für diese Aufgabe vorgezogen wird.




Dieser Eintrag ist Teil der Universitätsbibliographie.

Das Dokument wird vom Publikationsserver der Universitätsbibliothek Mannheim bereitgestellt.




Metadaten-Export


Zitation


+ Suche Autoren in

+ Download-Statistik

Downloads im letzten Jahr

Detaillierte Angaben



Sie haben einen Fehler gefunden? Teilen Sie uns Ihren Korrekturwunsch bitte hier mit: E-Mail


Actions (login required)

Eintrag anzeigen Eintrag anzeigen