Historische Lokalzeitungen – Kitodo.Presentation – Künstliche Intelligenz


Weil, Stefan


[img]
Preview
PDF
Kitodo_Praxistreffen_2025_Weil_Zeitungen_AI.pdf - Published

Download (10MB)

URN: urn:nbn:de:bsz:180-madoc-712404
Document Type: Conference presentation
Year of publication: 2025
Conference title: Kitodo Praxistreffen
Location of the conference venue: Köln, Germany
Date of the conference: 13.–14.11.2025
Related URLs:
Publication language: German
Institution: Zentrale Einrichtungen > University Library
License: CC BY 4.0 Creative Commons Attribution 4.0 International (CC BY 4.0)
Subject: 004 Computer science, internet
020 Library and information sciences
Subject headings (SWD): Digitalisierung , Fraktur , Optische Zeichenerkennung , Open Source
Individual keywords (German): Kitodo.Presentation , OCR , KI
Keywords (English): Kitodo.Presentation , OCR , AI
Abstract: Beschrieben wird die beispielhafte Digitalisierung einer historischen Lokalzeitung. Die dabei erzeugten Daten liegen in standardkonformen Formaten (METS/MODS, ALTO, JPEG) vor und lassen sich daher mit Kitodo.Presentation, DFG‑Viewer und im Deutschen Zeitungsportal präsentieren. Das im September 2025 neu trainierte Tesseract-Modell german_print2_15 bringt weitere Verbesserungen bei der Erkennungsrate – nicht nur für Frakturschrift. Ein exemplarischer Zeitungsartikel in Fraktur wird in Tests mit ausgewählten großen Sprachmodellen (ChatGPT, Llama 4, Mistral, qwen3‑vl) teilweise sehr gut erkannt. Zusätzlich gibt es ein JavaScript‑Bookmarklet, das serverseitige Übersetzungen der in Kitodo.Presentation angezeigten Volltexte ermöglicht, unabhängig von deren Sprache.
Translation of the abstract: The article describes the exemplary digitization of a historical local newspaper. The data generated in the process is available in standard-compliant formats (METS/MODS, ALTO, JPEG) and can therefore be presented using Kitodo.Presentation, DFG Viewer, and the German Newspaper Portal. The Tesseract model german_print2_15, which was newly trained in September 2025, brings further improvements in recognition rates – not only for blackletter type. An exemplary newspaper article in blackletter is partially recognized very well in tests with selected large language models (ChatGPT, Llama 4, Mistral, qwen3-vl). In addition, there is a JavaScript bookmarklet that enables server-side translations of the full texts displayed in Kitodo.Presentation, regardless of their language. (English)


SDG 4: Quality EducationSDG 9: Industry, Innovation and Infrastructure


Dieser Eintrag ist Teil der Universitätsbibliographie.

Das Dokument wird vom Publikationsserver der Universitätsbibliothek Mannheim bereitgestellt.




Metadata export


Citation


+ Search Authors in

BASE: Weil, Stefan

Google Scholar: Weil, Stefan

ORCID: Weil, Stefan ORCID: 0000-0002-0524-9898

+ Download Statistics

Downloads per month over past year

View more statistics



You have found an error? Please let us know about your desired correction here: E-Mail


Actions (login required)

Show item Show item