The WebDataCommons Microdata, RDFa and Microformat Dataset Series


Meusel, Robert ; Petrovski, Petar ; Bizer, Christian



DOI: https://doi.org/10.1007/978-3-319-11964-9_18
URL: http://videolectures.net/iswc2014_meusel_webdataco...
Weitere URL: http://de.slideshare.net/RobertMeusel/web-data-com...
Dokumenttyp: Konferenzveröffentlichung
Erscheinungsjahr: 2014
Buchtitel: The Semantic Web – ISWC 2014 : 13th International Semantic Web Conference, Riva del Garda, Italy, October 19-23, 2014. Proceedings, Part I
Titel einer Zeitschrift oder einer Reihe: Lecture Notes in Computer Science
Band/Volume: 8796
Seitenbereich: 277-292
Veranstaltungsdatum: October 19-23, 2014
Ort der Veröffentlichung: Berlin [u.a.]
Verlag: Springer
ISBN: 978-3-319-11963-2 , 978-3-319-11964-9
ISSN: 0302-9743 , 1611-3349
Sprache der Veröffentlichung: Englisch
Einrichtung: Fakultät für Wirtschaftsinformatik und Wirtschaftsmathematik > Information Systems V: Web-based Systems (Bizer 2012-)
Fachgebiet: 004 Informatik
Freie Schlagwörter (Englisch): Microdata , RDFa , Microformats , Dataset , Web Science
Abstract: In order to support web applications to understand the content of HTML pages an increasing number of websites have started to annotate structured data within their pages using markup formats such as Microdata, RDFa, Microformats. The annotations are used by Google, Yahoo!, Yandex, Bing and Facebook to enrich search results and to display entity descriptions within their applications. In this paper, we present a series of publicly accessible Microdata, RDFa, Microformats datasets that we have extracted from three large Web corpora dating 2010, 2012 and 2013. Altogether, the datasets consist of almost 30 billion RDF quads. The most recent of the datasets contains amongst other data over $211$ million product descriptions, 54 million reviews and 125 million postal addresses originating from thousands of websites. The availability of the datasets lays the foundation for further research on integrating and cleansing the data as well as for exploring its utility within different application contexts. As the dataset series covers four years, it can also be used to analyze the evolution of the adoption of the markup formats.




Dieser Eintrag ist Teil der Universitätsbibliographie.




Metadaten-Export


Zitation


+ Suche Autoren in

+ Aufruf-Statistik

Aufrufe im letzten Jahr

Detaillierte Angaben



Sie haben einen Fehler gefunden? Teilen Sie uns Ihren Korrekturwunsch bitte hier mit: E-Mail


Actions (login required)

Eintrag anzeigen Eintrag anzeigen