Exploiting general-purpose background knowledge for automated schema matching


Portisch, Jan


[img] PDF
dissertation_portisch.pdf - Published

Download (7MB)

URN: urn:nbn:de:bsz:180-madoc-628036
Document Type: Doctoral dissertation
Year of publication: 2022
Place of publication: Mannheim
University: Universität Mannheim
Evaluator: Paulheim, Heiko
Date of oral examination: 25 August 2022
Publication language: English
Institution: School of Business Informatics and Mathematics > Web Data Mining (Paulheim 2018-)
License: CC BY 4.0 Creative Commons Attribution 4.0 International (CC BY 4.0)
Subject: 004 Computer science, internet
Individual keywords (German): Datenintegration , Hintergrundwissen , Kontextwissen , Schema Matching , Wissensgraphen
Keywords (English): ontology matching , schema matching , ontology alignment , background knowledge , context knowledge , knowledge graph matching
Abstract: The schema matching task is an integral part of the data integration process. It is usually the first step in integrating data. Schema matching is typically very complex and time-consuming. It is, therefore, to the largest part, carried out by humans. One reason for the low amount of automation is the fact that schemas are often defined with deep background knowledge that is not itself present within the schemas. Overcoming the problem of missing background knowledge is a core challenge in automating the data integration process. In this dissertation, the task of matching semantic models, so-called ontologies, with the help of external background knowledge is investigated in-depth in Part I. Throughout this thesis, the focus lies on large, general-purpose resources since domain-specific resources are rarely available for most domains. Besides new knowledge resources, this thesis also explores new strategies to exploit such resources. A technical base for the development and comparison of matching systems is presented in Part II. The framework introduced here allows for simple and modularized matcher development (with background knowledge sources) and for extensive evaluations of matching systems. One of the largest structured sources for general-purpose background knowledge are knowledge graphs which have grown significantly in size in recent years. However, exploiting such graphs is not trivial. In Part III, knowledge graph em- beddings are explored, analyzed, and compared. Multiple improvements to existing approaches are presented. In Part IV, numerous concrete matching systems which exploit general-purpose background knowledge are presented. Furthermore, exploitation strategies and resources are analyzed and compared. This dissertation closes with a perspective on real-world applications.
Translation of the abstract: Schema Matching ist ein wesentlicher Bestandteil des Datenintegrationsprozesses. Es stellt typischerweise den ersten Schritt der Datenintegration dar. Schema Matching ist sehr komplex und zeitaufwändig. Es wird – zu großen Teilen – noch immer von Menschen ausgeführt. Ein Grund für den niedrigen Grad der Automation hierbei ist die Tatsache, dass Schemata sehr oft mit Kontextwissen modelliert werden, welches letztendlich jedoch nicht Teil des Schemas wird. In der vorliegenden Dissertation wird das Matching semantischer Modelle, sogenannter Ontologien, unter Zuhilfenahme externen Kontextwissens grundlegend erforscht; dies geschieht in Teil I dieser Arbeit. Ein Fokus liegt hierbei auf großen, allgemein gefassten Wissensressourcen, da fachspezifische Ressourcen für die meisten Domänen nur selten verfügbar sind. Neben der Untersuchung neuer Wissensressourcen werden in dieser Dissertation auch Methoden betrachtet, um solche Ressourcen sinnvoll zu nutzen. Eine technische Grundlage für die Entwicklung und den Vergleich von Matchingsystemen wird in Teil II vorgestellt. Das hier eingeführte Framework erlaubt einfaches, gegebenenfalls kontextwissenbasiertes, sowie modulbasiertes Entwickeln von Softwareartefakten. Ferner bietet das vorgestelle Framework umfassende Möglichkeiten der Evaluation von Matchingsystemen. Eine der größten strukturierten Ressourcen für allgemein gefasste Wissensressourcen sind Wissensgraphen (sogenannte knowledge graphs), welche in den letzten Jahren wesentlich gewachsen sind. Nichtsdestotrotz ist die Nutzung solcher Wissensgraphen nicht trivial. Teil III dieser Arbeit untersucht, analysiert und vergleicht sogenannte knowledge graph embeddings. Mehrere Verbesserungen bereits existierender Verfahren werden vorgestellt. In Teil IV werden zahlreiche konkrete Matchingsysteme, welche allgemein gefasste Wissensressourcen nutzen, vorgestellt. Zudem werden Nutzungsstrategien und Ressourcen analysiert und verglichen. Diese Dissertation wird mit einem Blick auf praxisorientierte Anwendungsfälle abgerundet. (German)

Dieser Eintrag ist Teil der Universitätsbibliographie.

Das Dokument wird vom Publikationsserver der Universitätsbibliothek Mannheim bereitgestellt.




Metadata export


Citation


+ Search Authors in

BASE: Portisch, Jan

Google Scholar: Portisch, Jan

ORCID: Portisch, Jan ORCID: 0000-0001-5420-0663

+ Download Statistics

Downloads per month over past year

View more statistics



You have found an error? Please let us know about your desired correction here: E-Mail


Actions (login required)

Show item Show item