Density- and correlation-based table extension


Kleppmann, Benedikt ; Bizer, Christian ; Yaqub, Edwin ; Temme, Fabian ; Schlunder, Philipp ; Arnu, David ; Klinkenberg, Ralf



URL: http://ceur-ws.org/Vol-2191/paper23.pdf
Weitere URL: http://ceur-ws.org/Vol-2191/
Dokumenttyp: Konferenzveröffentlichung
Erscheinungsjahr: 2018
Buchtitel: LWDA 2018 : Proceedings of the Conference "Lernen, Wissen, Daten, Analysen" Mannheim, Germany, August 22-24, 2018
Titel einer Zeitschrift oder einer Reihe: CEUR Workshop Proceedings
Band/Volume: 2191
Seitenbereich: 191-194
Veranstaltungstitel: Lernen, Wissen, Daten, Analysen 2018
Veranstaltungsort: Mannheim, Germany
Veranstaltungsdatum: August 22-24, 2018
Herausgeber: Gemulla, Rainer
Ort der Veröffentlichung: Aachen, Germany
Verlag: RWTH Aachen
ISSN: 1613-0073
Sprache der Veröffentlichung: Englisch
Einrichtung: Fakultät für Wirtschaftsinformatik und Wirtschaftsmathematik > Information Systems V: Web-based Systems (Bizer 2012-)
Fachgebiet: 004 Informatik
Freie Schlagwörter (Englisch): data discovery , table extension , holistic matching , web tables
Abstract: With thousands of data sources available on the Web as well as within organizations, data scientists increasingly spend more time searching for data than analyzing it. In order to ease the task of finding relevant data for data mining projects, this paper presents two data discovery and data integration methods that have been developed in a joint research project by RapidMiner Research and the University of Mannheim. Given a corpus of relational tables, the methods extend a query table with additional attributes and automatically fill these new attributes with data values from the corpus. The first method, densitybased table extension, extends the query table with all attributes that can be filled with data values so that a user-specified density threshold is reached. The second method, correlation-based table extension, extends the query table with all attributes that correlate with a specific attribute of the query table. Both methods are integrated as operators into RapidMiner Studio, a popular data mining environment. This enables data scientists to search for data and apply a wide range of different mining methods to the discovered data within the same environment.




Dieser Eintrag ist Teil der Universitätsbibliographie.




Metadaten-Export


Zitation


+ Suche Autoren in

+ Aufruf-Statistik

Aufrufe im letzten Jahr

Detaillierte Angaben



Sie haben einen Fehler gefunden? Teilen Sie uns Ihren Korrekturwunsch bitte hier mit: E-Mail


Actions (login required)

Eintrag anzeigen Eintrag anzeigen