Detecting Errors in Numerical Linked Data Using Cross-Checked Outlier Detection


Fleischhacker, Daniel ; Paulheim, Heiko ; Bryl, Volha ; Völker, Johanna ; Bizer, Christian



DOI: https://doi.org/10.1007/978-3-319-11964-9_23
URL: http://dl.acm.org/citation.cfm?id=2717241
Weitere URL: http://www.heikopaulheim.com/docs/iswc_2014.pdf
Dokumenttyp: Konferenzveröffentlichung
Erscheinungsjahr: 2014
Buchtitel: The Semantic Web – ISWC 2014 : 13th International Semantic Web Conference, Riva del Garda, Italy, October 19-23, 2014. Proceedings, Part I
Titel einer Zeitschrift oder einer Reihe: Lecture Notes in Computer Science
Band/Volume: 8796
Seitenbereich: 357-372
Veranstaltungstitel: ISWC 2014
Veranstaltungsort: Riva del Garda, Italy
Veranstaltungsdatum: October 19-23, 2014
Ort der Veröffentlichung: Berlin [u.a.]
Verlag: Springer
ISBN: 978-3-319-11963-2 , 978-3-319-11964-9
ISSN: 0302-9743 , 1611-3349
Sprache der Veröffentlichung: Englisch
Einrichtung: Fakultät für Wirtschaftsinformatik und Wirtschaftsmathematik > Web Data Mining (Juniorprofessur) (Paulheim 2013-2017)
Fakultät für Wirtschaftsinformatik und Wirtschaftsmathematik > Practical Computer Science II: Artificial Intelligence (Stuckenschmidt 2009-)
Fakultät für Wirtschaftsinformatik und Wirtschaftsmathematik > Information Systems V: Web-based Systems (Bizer 2012-)
Fachgebiet: 004 Informatik
Freie Schlagwörter (Englisch): Linked Data , Data Debugging , Data Quality , Outlier Detection
Abstract: Outlier detection used for identifying wrong values in data is typically applied to single datasets to search them for values of unexpected behavior. In this work, we instead propose an approach which combines the outcomes of two independent outlier detection runs to get a more reliable result and to also prevent problems arising from natural outliers which are exceptional values in the dataset but nevertheless correct. Linked Data is especially suited for the application of such an idea, since it provides large amounts of data enriched with hierarchical information and also contains explicit links between instances. In a first step, we apply outlier detection methods to the property values extracted from a single repository, using a novel approach for splitting the data into relevant subsets. For the second step, we exploit owl:sameAs links for the instances to get additional property values and perform a second outlier detection on these values. Doing so allows us to confirm or reject the assessment of a wrong value. Experiments on the DBpedia and NELL datasets demonstrate the feasibility of our approach.




Dieser Eintrag ist Teil der Universitätsbibliographie.




Metadaten-Export


Zitation


+ Suche Autoren in

+ Aufruf-Statistik

Aufrufe im letzten Jahr

Detaillierte Angaben



Sie haben einen Fehler gefunden? Teilen Sie uns Ihren Korrekturwunsch bitte hier mit: E-Mail


Actions (login required)

Eintrag anzeigen Eintrag anzeigen