Neural methods for link prediction in knowledge graphs

Kochsiek, Adrian

PDF
phd_thesis_main-1.pdf - Veröffentlichte Version
Download (1MB)

URN:	urn:nbn:de:bsz:180-madoc-688840
Dokumenttyp:	Dissertation
Erscheinungsjahr:	2025
Ort der Veröffentlichung:	Mannheim
Hochschule:	Universität Mannheim
Gutachter:	Gemulla, Rainer
Datum der mündl. Prüfung:	2025
Sprache der Veröffentlichung:	Englisch
Einrichtung:	Fakultät für Wirtschaftsinformatik und Wirtschaftsmathematik > Practical Computer Science I: Data Analytics (Gemulla 2014-)
Lizenz:	Creative Commons Namensnennung 4.0 International (CC BY 4.0)
Fachgebiet:	004 Informatik
Freie Schlagwörter (Englisch):	link prediction , knowledge graph embedding , large-scale , graph algorithm , hyperparameter optimization
Abstract:	Integrating neural models with multi-relational data poses a significant challenge, mainly due to the complexity and highly interconnected nature of such data, which is prevalent in domains such as social networks, knowledge graphs, and biomedical databases. In this context, this thesis explores three key challenges: effectively capturing multi-relational data for efficient reasoning and integration into downstream applications, integrating structural and textual information, and managing the evolving nature of multi-relational graphs. Knowledge graph embeddings (KGE) offer a promising approach, learning low-dimensional representations for entities and relations to enhance tasks such as recommendation, question answering, and visual relationship detection. However, scalability and quality assurance in KGE models remain issues, especially with large-scale graphs. Recent frameworks address scalability through parallelization techniques, but their impact on model quality requires further study. While extensive hyperparameter optimization can considerably improve the resulting embedding quality, current optimization methods do not scale to large-scale graphs. Moreover, integrating textual information with structural data in a simple, scalable, and versatile manner remains an open problem. Addressing these challenges, this thesis makes several key contributions. First, it evaluates and improves the efficiency and effectiveness of parallel training techniques for KGE models. By re-implementing and extensively testing various parallelization methods, the study identifies optimal techniques for large-scale KGE training, demonstrating significant speedups while maintaining model quality. Second, it proposes GraSH, a scalable hyperparameter optimization algorithm based on successive halving, achieving state-of-the-art results on large-scale knowledge graphs with minimal search budgets. Third, the thesis introduces KGT5-context, a novel approach that integrates structural and textual information by posing link prediction as a sequence-to-sequence task, achieving or surpassing state-of-the-art results in link prediction and downstream tasks. Finally, it presents the Wikidata5M-SI benchmark for evaluating model performance on dynamic graphs with emerging entities in a realistic, large-scale setting.
Übersetzung des Abstracts:	Die Integration von neuronalen Modellen mit multi-relationalen Daten stellt eine bedeutende Herausforderung dar, aufgrund der Komplexität der verbundenen Daten, wie sie in Bereichen wie sozialen Netzwerken, Wissensgraphen und biomedizinischen Datenbanken vorkommen. In diesem Kontext untersucht diese Arbeit drei zentrale Herausforderungen: (i) das effektive Erfassen von multi-relationalen Daten für effiziente Inferenz und die Integration in nachgelagerte Anwendungen, (ii) die Integration von strukturellen und textuellen Informationen sowie (iii) die Handhabung der dynamischen Eigenschaft von multi-relationalen Graphen. Knowledge Graph Embeddingsa (KGE) bieten einen vielversprechenden Ansatz, indem sie niedrigdimensionale Repräsentationen für Entitäten und Relationen lernen, um Aufgaben wie Empfehlung, Fragebeantwortung und visuelle Beziehungserkennung zu verbessern. Allerdings bleiben Skalierbarkeit und Qualitätssicherung bei KGE-Modellen Herausforderungen. Neue Frameworks adressieren die Skalierbarkeit durch Parallelisierungstechniken, aber deren Auswirkungen auf die Modellqualität bedürfen weiterer Untersuchung. Während umfangreiche Hyperparameter-Optimierung die Qualität der resultierenden Embeddings erheblich verbessern kann, skalieren aktuelle Optimierungsmethoden nicht auf große Graphen. Zudem bleibt die Integration von textuellen Informationen mit strukturellen Daten auf einfache, skalierbare und flexible Weise ein ungelöstes Problem. Zur Bewältigung dieser Herausforderungen leistet diese Arbeit mehrere wesentliche Beiträge. Erstens bewertet und verbessert sie die Effizienz und Effektivität paralleler Trainingstechniken für KGE-Modelle. Durch die Neuimplementierung und umfangreiche Prüfung verschiedener Parallelisierungsmethoden identifiziert die Studie optimale Techniken für das Training von KGE Modellen auf großen Graphen und zeigt eine signifikante Reduzierung der Trainingszeit bei gleichzeitiger Erhaltung der Modellqualität. Zweitens wird GraSH eingeführt, ein skalierbarer Hyperparameter-Optimierungsalgorithmus basierend auf “Successive Halving”, der mit minimalen Suchbudget Ergebnisse auf dem Stand der Technik auf großen Wissensgraphen erzielt. Drittens führt die Arbeit KGT5-Kontext ein, einen neuartigen Ansatz, der strukturelle und textuelle Informationen integriert, indem er die Vorhersage von neuen Verbindungen im Graphen als Sequenz-zu-Sequenz-Aufgabe darstellt und dabei den derzeitigen Stand der Technik in der Linkvorhersage und darauf aufbauenden Aufgaben erreicht oder übertrifft. Schließlich wird die Wikidata5M-SI-Benchmark vorgestellt, um die Modellleistung auf großen, dynamischen Graphen mit neuen Entitäten in einem realistischen Setting zu evaluieren. (Deutsch)