LLM4DDC: Adopting Large Language Models for research data classification using Dewey Decimal Classification


Shahi, Gautam Kishore ; Shigapov, Renat ; Hummel, Oliver


[img]
Vorschau
PDF
heiBOOKS-1652-978-3-911056-51-9-CH40.pdf - Veröffentlichte Version

Download (1MB)

DOI: https://doi.org/10.11588/heibooks.1652.c23948
URL: https://books.ub.uni-heidelberg.de/heibooks/catalo...
URN: urn:nbn:de:bsz:180-madoc-711513
Dokumenttyp: Konferenzveröffentlichung
Erscheinungsjahr: 2025
Buchtitel: E-Science-Tage 2025: research data management: challenges in a changing world
Seitenbereich: 476-484
Veranstaltungstitel: E-Science-Tage 2025
Veranstaltungsort: Heidelberg, Germany
Veranstaltungsdatum: 12.-14.03.2025
Herausgeber: Heuveline, Vincent ; Kling, Philipp ; Heuschkel, Florian ; Habinger, Sophie G. ; Krömer, Cora F.
Ort der Veröffentlichung: Heidelberg
Verlag: heiBOOKS
Sprache der Veröffentlichung: Englisch
Einrichtung: Zentrale Einrichtungen > UB Universitätsbibliothek
Bereits vorhandene Lizenz: Creative Commons Namensnennung, Weitergabe unter gleichen Bedingungen 4.0 International (CC BY-SA 4.0)
Fachgebiet: 004 Informatik
Abstract: Classifying research data in institutional repositories is time-consuming and challenging. While the Dewey Decimal Classification (DDC) system is widely used in subject classification for texts, its application to research data metadata has been limited so far. This study explores the possible use of large language models (LLMs) and small language models (SLMs) for the automatic classification of research data in the context of DDC. This study uses sample data from an existing dataset compiled from different institutions mainly in Germany. We use a prompt engineering approach for LLMs, and fine tuning for SLMs, where we use RoBERTa as a baseline. Our results show that LLMs with prompt engineering currently are not able to classify metadata of research data into DDC classes as good as SLMs with fine tuning. To foster adoption, we openly release our models, code, and datasets for integration into research data infrastructures at GitHub.


SDG 9: Industrie, Innovation und Infrastruktur


Das Dokument wird vom Publikationsserver der Universitätsbibliothek Mannheim bereitgestellt.

Dieser Datensatz wurde nicht während einer Tätigkeit an der Universität Mannheim veröffentlicht, dies ist eine Externe Publikation.




Metadaten-Export


Zitation


+ Suche Autoren in

+ Download-Statistik

Downloads im letzten Jahr

Detaillierte Angaben



Sie haben einen Fehler gefunden? Teilen Sie uns Ihren Korrekturwunsch bitte hier mit: E-Mail


Actions (login required)

Eintrag anzeigen Eintrag anzeigen