Historische Lokalzeitungen – Kitodo.Presentation – Künstliche Intelligenz


Weil, Stefan


[img]
Vorschau
PDF
Kitodo_Praxistreffen_2025_Weil_Zeitungen_AI.pdf - Veröffentlichte Version

Download (10MB)

URN: urn:nbn:de:bsz:180-madoc-712404
Dokumenttyp: Präsentation auf Konferenz
Erscheinungsjahr: 2025
Veranstaltungstitel: Kitodo Praxistreffen
Veranstaltungsort: Köln, Germany
Veranstaltungsdatum: 13.–14.11.2025
Verwandte URLs:
Sprache der Veröffentlichung: Deutsch
Einrichtung: Zentrale Einrichtungen > UB Universitätsbibliothek
Lizenz: CC BY 4.0 Creative Commons Namensnennung 4.0 International (CC BY 4.0)
Fachgebiet: 004 Informatik
020 Bibliotheks- und Informationswissenschaft
Normierte Schlagwörter (SWD): Digitalisierung , Fraktur , Optische Zeichenerkennung , Open Source
Freie Schlagwörter (Deutsch): Kitodo.Presentation , OCR , KI
Freie Schlagwörter (Englisch): Kitodo.Presentation , OCR , AI
Abstract: Beschrieben wird die beispielhafte Digitalisierung einer historischen Lokalzeitung. Die dabei erzeugten Daten liegen in standardkonformen Formaten (METS/MODS, ALTO, JPEG) vor und lassen sich daher mit Kitodo.Presentation, DFG‑Viewer und im Deutschen Zeitungsportal präsentieren. Das im September 2025 neu trainierte Tesseract-Modell german_print2_15 bringt weitere Verbesserungen bei der Erkennungsrate – nicht nur für Frakturschrift. Ein exemplarischer Zeitungsartikel in Fraktur wird in Tests mit ausgewählten großen Sprachmodellen (ChatGPT, Llama 4, Mistral, qwen3‑vl) teilweise sehr gut erkannt. Zusätzlich gibt es ein JavaScript‑Bookmarklet, das serverseitige Übersetzungen der in Kitodo.Presentation angezeigten Volltexte ermöglicht, unabhängig von deren Sprache.
Übersetzung des Abstracts: The article describes the exemplary digitization of a historical local newspaper. The data generated in the process is available in standard-compliant formats (METS/MODS, ALTO, JPEG) and can therefore be presented using Kitodo.Presentation, DFG Viewer, and the German Newspaper Portal. The Tesseract model german_print2_15, which was newly trained in September 2025, brings further improvements in recognition rates – not only for blackletter type. An exemplary newspaper article in blackletter is partially recognized very well in tests with selected large language models (ChatGPT, Llama 4, Mistral, qwen3-vl). In addition, there is a JavaScript bookmarklet that enables server-side translations of the full texts displayed in Kitodo.Presentation, regardless of their language. (Englisch)


SDG 4: Hochwertige BildungSDG 9: Industrie, Innovation und Infrastruktur


Dieser Eintrag ist Teil der Universitätsbibliographie.

Das Dokument wird vom Publikationsserver der Universitätsbibliothek Mannheim bereitgestellt.




Metadaten-Export


Zitation


+ Suche Autoren in

BASE: Weil, Stefan

Google Scholar: Weil, Stefan

ORCID: Weil, Stefan ORCID: 0000-0002-0524-9898

+ Download-Statistik

Downloads im letzten Jahr

Detaillierte Angaben



Sie haben einen Fehler gefunden? Teilen Sie uns Ihren Korrekturwunsch bitte hier mit: E-Mail


Actions (login required)

Eintrag anzeigen Eintrag anzeigen