|
LLM4DDC: Adopting Large Language Models for research data classification using Dewey Decimal Classification
Shahi, Gautam Kishore
;
Shigapov, Renat
;
Hummel, Oliver
![[img]](https://madoc.bib.uni-mannheim.de/71151/1.hassmallThumbnailVersion/heiBOOKS-1652-978-3-911056-51-9-CH40.pdf)  Vorschau |
|
PDF
heiBOOKS-1652-978-3-911056-51-9-CH40.pdf
- Veröffentlichte Version
Download (1MB)
|
|
DOI:
|
https://doi.org/10.11588/heibooks.1652.c23948
|
|
URL:
|
https://books.ub.uni-heidelberg.de/heibooks/catalo...
|
|
URN:
|
urn:nbn:de:bsz:180-madoc-711513
|
|
Dokumenttyp:
|
Konferenzveröffentlichung
|
|
Erscheinungsjahr:
|
2025
|
|
Buchtitel:
|
E-Science-Tage 2025: research data management: challenges in a changing world
|
|
Seitenbereich:
|
476-484
|
|
Veranstaltungstitel:
|
E-Science-Tage 2025
|
|
Veranstaltungsort:
|
Heidelberg, Germany
|
|
Veranstaltungsdatum:
|
12.-14.03.2025
|
|
Herausgeber:
|
Heuveline, Vincent
;
Kling, Philipp
;
Heuschkel, Florian
;
Habinger, Sophie G.
;
Krömer, Cora F.
|
|
Ort der Veröffentlichung:
|
Heidelberg
|
|
Verlag:
|
heiBOOKS
|
|
Sprache der Veröffentlichung:
|
Englisch
|
|
Einrichtung:
|
Zentrale Einrichtungen > UB Universitätsbibliothek
|
|
Bereits vorhandene Lizenz:
|
Creative Commons Namensnennung, Weitergabe unter gleichen Bedingungen 4.0 International (CC BY-SA 4.0)
|
|
Fachgebiet:
|
004 Informatik
|
|
Abstract:
|
Classifying research data in institutional repositories is time-consuming and challenging. While the Dewey Decimal Classification (DDC) system is widely used in subject classification for texts, its application to research data metadata has been limited so far. This study explores the possible use of large language models (LLMs) and small language models (SLMs) for the automatic classification of research data in the context of DDC. This study uses sample data from an existing dataset compiled from different institutions mainly in Germany. We use a prompt engineering approach for LLMs, and fine tuning for SLMs, where we use RoBERTa as a baseline. Our results show that LLMs with prompt engineering currently are not able to classify metadata of research data into DDC classes as good as SLMs with fine tuning. To foster adoption, we openly release our models, code, and datasets for integration into research data infrastructures at GitHub.
|

 | Das Dokument wird vom Publikationsserver der Universitätsbibliothek Mannheim bereitgestellt. |
 | Dieser Datensatz wurde nicht während einer Tätigkeit an der Universität Mannheim veröffentlicht, dies ist eine Externe Publikation. |
Suche Autoren in
Sie haben einen Fehler gefunden? Teilen Sie uns Ihren Korrekturwunsch bitte hier mit: E-Mail
Actions (login required)
 |
Eintrag anzeigen |
|
|