Exploiting semi-structured information in Wikipedia for knowledge graph construction


Heist, Nicolas


[img] PDF
nh_dissertation_print.pdf - Veröffentlichte Version

Download (9MB)

URN: urn:nbn:de:bsz:180-madoc-673120
Dokumenttyp: Dissertation
Erscheinungsjahr: 2024
Ort der Veröffentlichung: Mannheim
Hochschule: Universität Mannheim
Gutachter: Paulheim, Heiko
Datum der mündl. Prüfung: 5 Juni 2024
Sprache der Veröffentlichung: Englisch
Einrichtung: Fakultät für Wirtschaftsinformatik und Wirtschaftsmathematik > Data Science (Paulheim 2018-)
Fachgebiet: 004 Informatik
Freie Schlagwörter (Englisch): Knowledge Graph Construction , Wikipedia , Semi-Structured Data , DBpedia , CaLiGraph
Abstract: Knowledge graphs play an important role in today's IT landscape as they serve as a data foundation for a plethora of applications and natively support tasks like question answering or recommendation. Hence, it is more important than ever that the knowledge modelled by knowledge graphs is correct and complete. While this is an elusive goal for many domains, techniques for automated knowledge graph construction serve as a means to approach it. In this thesis, we address three main challenges in the field of automated knowledge graph construction using semi-structured data in Wikipedia as a data source. To create an ontology with expressive and fine-grained types, we present an approach that extracts a large-scale general-purpose taxonomy from categories and list pages in Wikipedia. We enhance the taxonomy's classes with axioms explicating their semantics. To increase the coverage of long-tail entities in knowledge graphs, we describe a pipeline of approaches that identify entity mentions in Wikipedia listings, integrate them into an existing knowledge graph, and enrich them with additional facts derived from the extraction context. As a result of applying the above approaches to semi-structured data in Wikipedia, we present the knowledge graph CaLiGraph. The graph describes more than 13 million entities with an ontology containing almost 1.3 million classes. To judge the value of CaLiGraph for practical tasks, we introduce a framework that compares knowledge graphs based on their performance on downstream tasks. We find CaLiGraph to be a valuable addition to the field of publicly available general-purpose knowledge graphs.
Übersetzung des Abstracts: Wissensgraphen spielen eine wichtige Rolle in der heutigen IT-Landschaft, da sie als Datenbasis für eine Vielzahl von Anwendungen dienen und Aufgaben wie Fragebeantwortung oder Empfehlungen nativ unterstützen. Daher ist es wichtiger denn je, dass das von Wissensgraphen modellierte Wissen korrekt und vollständig ist. Obwohl dies für viele Bereiche ein schwer zu erreichendes Ziel ist, dienen Techniken der automatisierten Konstruktion von Wissensgraphen als Mittel, um sich diesem Ziel anzunähern. In dieser Arbeit behandeln wir drei Hauptherausforderungen im Bereich der automatisierten Konstruktion von Wissensgraphen unter Verwendung semi-strukturierter Daten in Wikipedia als Datenquelle. Um eine Ontologie mit ausdrucksstarken und feingranularen Typen zu erstellen, präsentieren wir einen Ansatz, der eine groß angelegte, allgemeine Taxonomie aus Kategorien und Listen-Seiten in Wikipedia extrahiert. Wir erweitern die Klassen der Taxonomie um Axiome, die ihre Semantik erklären. Um die Abdeckung von Entitäten mit geringer Häufigkeit in Wissensgraphen zu erhöhen, beschreiben wir eine Reihe von Ansätzen, die Nennungen solcher Entitäten in Auflistungen in Wikipedia identifizieren, sie in einen vorhandenen Wissensgraphen integrieren und mit zusätzlichen Fakten aus dem Extraktionskontext anreichern. Als Ergebnis der Anwendung der oben genannten Ansätze auf semi-strukturierte Daten in Wikipedia präsentieren wir den Wissensgraphen CaLiGraph. Der Graph beschreibt mehr als 13 Millionen Entitäten mit einer Ontologie, die fast 1,3 Millionen Klassen umfasst. Um den Wert von CaLiGraph für praktische Aufgaben zu beurteilen, führen wir ein Framework ein, das Wissensgraphen anhand ihrer Leistung bei tatsächlichen Aufgaben vergleicht. Wir stellen fest, dass CaLiGraph eine wertvolle Ergänzung im Bereich der öffentlich verfügbaren, allgemeinen Wissensgraphen ist. (Deutsch)




Dieser Eintrag ist Teil der Universitätsbibliographie.

Das Dokument wird vom Publikationsserver der Universitätsbibliothek Mannheim bereitgestellt.




Metadaten-Export


Zitation


+ Suche Autoren in

BASE: Heist, Nicolas

Google Scholar: Heist, Nicolas

ORCID: Heist, Nicolas ORCID: 0000-0002-4354-9138

+ Download-Statistik

Downloads im letzten Jahr

Detaillierte Angaben



Sie haben einen Fehler gefunden? Teilen Sie uns Ihren Korrekturwunsch bitte hier mit: E-Mail


Actions (login required)

Eintrag anzeigen Eintrag anzeigen