Entity matching using deep neural networks: From discriminative pre-trained language models to generative large language models
Peeters, Ralph
![[img]](https://madoc.bib.uni-mannheim.de/style/images/fileicons/application_pdf.png) |
PDF
Dissertation_RalphPeeters.pdf
- Veröffentlichte Version
Download (3MB)
|
URN:
|
urn:nbn:de:bsz:180-madoc-694251
|
Dokumenttyp:
|
Dissertation
|
Erscheinungsjahr:
|
2025
|
Ort der Veröffentlichung:
|
Mannheim
|
Hochschule:
|
Universität Mannheim
|
Gutachter:
|
Bizer, Christian
|
Datum der mündl. Prüfung:
|
2025
|
Sprache der Veröffentlichung:
|
Englisch
|
Einrichtung:
|
Fakultät für Wirtschaftsinformatik und Wirtschaftsmathematik > Information Systems V: Web-based Systems (Bizer 2012-)
|
Fachgebiet:
|
004 Informatik
|
Freie Schlagwörter (Englisch):
|
entity matching , deep neural networks , pre-trained language models , large language models
|
Abstract:
|
Entity matching is the task of identifying records that refer to the same entity across different datasets. It is a critical step in the data integration process. Supervised entity matching methods typically frame the problem as a binary classification task between record pairs. These methods require labeled record pairs, consisting of matches and non-matches, for training. Key challenges in entity matching include high heterogeneity among records referring to the same entity, scarcity of training data, and the continuous emergence of unseen entities in real-world applications.
This thesis introduces two novel benchmarks for product matching, created using semantically annotated product identifiers on the Web as distant supervision. These benchmarks, sourced from thousands of e-shops, are among the largest and most diverse publicly available product matching datasets. They enable a fine-grained evaluation of entity matching methods across different entity matching challenges.
The thesis presents two new neural approaches for entity matching based on pre-trained language models, which achieve state-of-the-art results on multiple benchmarks. Unlike existing methods, both approaches exploit entity group information alongside binary matching labels during training. The first method, JointBERT, employs a dual-objective fine-tuning strategy. The second method, R-SupCon, uses supervised contrastive learning and establishes new state-of-the-art results on multiple benchmarks, proving particularly effective on smaller training sets. In addition, the thesis explores the usefulness of multilingual Transformers for improving product matching performance in low-resource languages.
This work further investigates generative large language models for entity matching, comparing them with pre-trained language models. The investigations include an analysis of prompting techniques, such as zero-shot inference, in-context learning, and rule-based prompting, as well as fine-tuning for entity matching. The results highlight the potential of large language models to match or exceed the performance of fine-tuned pre-trained language models, while requiring no or minimal amounts of training data. Additionally, the experiments demonstrate better generalization to unseen entities compared to pre-trained language models.
The thesis also examines the explainability of matching decisions, introducing two methods for aggregating local explanations into global insights. The first method, based on LIME explanations, is broadly applicable to matching classifiers. The second method uses large language models to produce structured explanations that can be automatically parsed and aggregated. Finally, the thesis introduces a method for automating error analysis using large language models. This approach allows for the automatic generation of error classes, which can help data engineers in the process of improving entity matching pipelines.
|
Übersetzung des Abstracts:
|
Entity Matching ist die Aufgabe, Datensätze zu identifizieren, die sich auf dieselbe Entität in unterschiedlichen Datenquellen beziehen. Es handelt sich um einen kritischen Schritt im Datenintegrationsprozess. Entity Matching Methoden, die auf überwachten maschinellen Lernverfahren basieren, betrachten die Aufgabe als binäre Klassifikation von Datensatzpaaren. Diese Methoden benötigen gelabelte Datensatzpaare, sowohl Matches als auch Non-Matches, für das Training. Zu den wichtigsten Herausforderungen zählen die hohe Heterogenität von Datensätzen, die sich auf dieselbe Entität beziehen, die Knappheit an Trainingsdaten sowie das kontinuierliche Auftreten unbekannter Entitäten in Anwendungen in der Praxis.
Diese Arbeit führt zwei neue Benchmarks für das Produkt-Matching ein, die mittels semantisch annotierter Produktkennungen aus dem Web als distant supervision erstellt wurden. Diese Benchmarks, die aus tausenden von E-Shops stammen, gehören zu den größten und vielfältigsten öffentlich verfügbaren Datensätzen für Produkt-Matching und ermöglichen eine feingranulare Evaluation von Entity Matching-Systemen für verschiedene Entity Matching Herausforderungen.
Die Arbeit präsentiert zwei neue neuronale Ansätze für Entity Matching auf Basis vortrainierter Sprachmodelle, die auf mehreren Benchmarks Werte auf dem Stand der Technik erreichen. Im Gegensatz zu bestehenden Methoden nutzen beide Ansätze während des Trainings neben den binären Matching-Labels auch Entitätsgruppierungen. Die erste Methode, JointBERT, verwendet eine Fine-tuning-Strategie mit zwei Zielen. Die zweite Methode, R-SupCon, nutzt überwachtes Contrastive Learning und erzielt Werte auf dem Stand der Technik auf mehreren Benchmarks, insbesondere bei kleineren Trainingssätzen. Zusätzlich untersucht die Arbeit die Nützlichkeit von multilingualen Transformern zur Verbesserung der Produkt-Matching Leistung in ressourcenarmen Sprachen.
Es werden große generative Sprachmodelle für Entity Matching untersucht und mit vortrainierten Sprachmodellen verglichen. Prompting-Techniken, wie Zero-Shot-Inferenz, In-Context Learning und regelbasiertes Prompting, sowie das Fine-tuning für Entity Matching werden analysiert. Die Ergebnisse zeigen, dass große Sprachmodelle ohne, oder mit nur minimalen Mengen von Trainingsdaten, die Leistung von vortrainierten Sprachmodellen erreichen oder übertreffen können und insbesondere bessere Generalisierung für unbekannte Entitäten ermöglichen.
Schließlich wird die Erklärbarkeit von Matching-Entscheidungen untersucht, wobei zwei Methoden zur Aggregation lokaler Erklärungen eingeführt werden, um globale Einblicke zu gewinnen. Die erste Methode basiert auf LIME-Erklärungen und ist universell anwendbar, während die zweite große Sprachmodelle nutzt, um strukturierte und automatisch parsbare Erklärungen zu erzeugen. Abschließend wird eine Methode vorgestellt, die es ermöglicht, die Fehleranalyse mittels großer Sprachmodelle zu automatisieren und Fehlerklassen automatisch zu generieren, was Dateningenieuren dabei helfen kann Entity Matching-Prozesse zu verbessern.
(Deutsch)
|
 | Dieser Eintrag ist Teil der Universitätsbibliographie. |
 | Das Dokument wird vom Publikationsserver der Universitätsbibliothek Mannheim bereitgestellt. |
Suche Autoren in
Sie haben einen Fehler gefunden? Teilen Sie uns Ihren Korrekturwunsch bitte hier mit: E-Mail
Actions (login required)
 |
Eintrag anzeigen |
|