Exploiting semi-structured information in Wikipedia for knowledge graph construction


Heist, Nicolas


[img] PDF
nh_dissertation_print.pdf - Published

Download (9MB)

URN: urn:nbn:de:bsz:180-madoc-673120
Document Type: Doctoral dissertation
Year of publication: 2024
Place of publication: Mannheim
University: Universität Mannheim
Evaluator: Paulheim, Heiko
Date of oral examination: 5 June 2024
Publication language: English
Institution: School of Business Informatics and Mathematics > Data Science (Paulheim 2018-)
Subject: 004 Computer science, internet
Keywords (English): Knowledge Graph Construction , Wikipedia , Semi-Structured Data , DBpedia , CaLiGraph
Abstract: Knowledge graphs play an important role in today's IT landscape as they serve as a data foundation for a plethora of applications and natively support tasks like question answering or recommendation. Hence, it is more important than ever that the knowledge modelled by knowledge graphs is correct and complete. While this is an elusive goal for many domains, techniques for automated knowledge graph construction serve as a means to approach it. In this thesis, we address three main challenges in the field of automated knowledge graph construction using semi-structured data in Wikipedia as a data source. To create an ontology with expressive and fine-grained types, we present an approach that extracts a large-scale general-purpose taxonomy from categories and list pages in Wikipedia. We enhance the taxonomy's classes with axioms explicating their semantics. To increase the coverage of long-tail entities in knowledge graphs, we describe a pipeline of approaches that identify entity mentions in Wikipedia listings, integrate them into an existing knowledge graph, and enrich them with additional facts derived from the extraction context. As a result of applying the above approaches to semi-structured data in Wikipedia, we present the knowledge graph CaLiGraph. The graph describes more than 13 million entities with an ontology containing almost 1.3 million classes. To judge the value of CaLiGraph for practical tasks, we introduce a framework that compares knowledge graphs based on their performance on downstream tasks. We find CaLiGraph to be a valuable addition to the field of publicly available general-purpose knowledge graphs.
Translation of the abstract: Wissensgraphen spielen eine wichtige Rolle in der heutigen IT-Landschaft, da sie als Datenbasis für eine Vielzahl von Anwendungen dienen und Aufgaben wie Fragebeantwortung oder Empfehlungen nativ unterstützen. Daher ist es wichtiger denn je, dass das von Wissensgraphen modellierte Wissen korrekt und vollständig ist. Obwohl dies für viele Bereiche ein schwer zu erreichendes Ziel ist, dienen Techniken der automatisierten Konstruktion von Wissensgraphen als Mittel, um sich diesem Ziel anzunähern. In dieser Arbeit behandeln wir drei Hauptherausforderungen im Bereich der automatisierten Konstruktion von Wissensgraphen unter Verwendung semi-strukturierter Daten in Wikipedia als Datenquelle. Um eine Ontologie mit ausdrucksstarken und feingranularen Typen zu erstellen, präsentieren wir einen Ansatz, der eine groß angelegte, allgemeine Taxonomie aus Kategorien und Listen-Seiten in Wikipedia extrahiert. Wir erweitern die Klassen der Taxonomie um Axiome, die ihre Semantik erklären. Um die Abdeckung von Entitäten mit geringer Häufigkeit in Wissensgraphen zu erhöhen, beschreiben wir eine Reihe von Ansätzen, die Nennungen solcher Entitäten in Auflistungen in Wikipedia identifizieren, sie in einen vorhandenen Wissensgraphen integrieren und mit zusätzlichen Fakten aus dem Extraktionskontext anreichern. Als Ergebnis der Anwendung der oben genannten Ansätze auf semi-strukturierte Daten in Wikipedia präsentieren wir den Wissensgraphen CaLiGraph. Der Graph beschreibt mehr als 13 Millionen Entitäten mit einer Ontologie, die fast 1,3 Millionen Klassen umfasst. Um den Wert von CaLiGraph für praktische Aufgaben zu beurteilen, führen wir ein Framework ein, das Wissensgraphen anhand ihrer Leistung bei tatsächlichen Aufgaben vergleicht. Wir stellen fest, dass CaLiGraph eine wertvolle Ergänzung im Bereich der öffentlich verfügbaren, allgemeinen Wissensgraphen ist. (German)




Dieser Eintrag ist Teil der Universitätsbibliographie.

Das Dokument wird vom Publikationsserver der Universitätsbibliothek Mannheim bereitgestellt.




Metadata export


Citation


+ Search Authors in

BASE: Heist, Nicolas

Google Scholar: Heist, Nicolas

ORCID: Heist, Nicolas ORCID: 0000-0002-4354-9138

+ Download Statistics

Downloads per month over past year

View more statistics



You have found an error? Please let us know about your desired correction here: E-Mail


Actions (login required)

Show item Show item