Cross-language learning for product matching


Peeters, Ralph ; Bizer, Christian


[img] PDF
3487553.3524234.pdf - Veröffentlichte Version

Download (437kB)

DOI: https://doi.org/10.1145/3487553.3524234
URL: https://dl.acm.org/doi/abs/10.1145/3487553.3524234
URN: urn:nbn:de:bsz:180-madoc-626623
Dokumenttyp: Konferenzveröffentlichung
Erscheinungsjahr: 2022
Buchtitel: Companion Proceedings of the Web Conference 2022
Seitenbereich: 236-238
Veranstaltungstitel: WWW '22
Veranstaltungsort: Lyon, France, Online
Veranstaltungsdatum: 25.-29.04.2022
Herausgeber: Laforest, Frédérique ; Troncy, Raphaël
Ort der Veröffentlichung: New York, NY
Verlag: ACM
ISBN: 978-1-4503-9130-6
Verwandte URLs:
Sprache der Veröffentlichung: Englisch
Einrichtung: Fakultät für Wirtschaftsinformatik und Wirtschaftsmathematik > Information Systems V: Web-based Systems (Bizer 2012-)
Bereits vorhandene Lizenz: Creative Commons Namensnennung 4.0 International (CC BY 4.0)
Fachgebiet: 004 Informatik
Fachklassifikation: CCS: Information systems → Entity resolution; Data extraction and integration,
Freie Schlagwörter (Englisch): entity matching , cross-language learning , e-commerce , transformers , schema.org
Abstract: Transformer-based entity matching methods have significantly moved the state of the art for less-structured matching tasks such as matching product offers in e-commerce. In order to excel at these tasks, Transformer-based matching methods require a decent amount of training pairs. Providing enough training data can be challenging, especially if a matcher for non-English product descriptions should be learned. This poster explores along the use case of matching product offers from different e-shops to which extent it is possible to improve the performance of Transformer-based matchers by complementing a small set of training pairs in the target language, German in our case, with a larger set of English-language training pairs. Our experiments using different Transformers show that extending the German set with English pairs improves the matching performance in all cases. The impact of adding the English pairs is especially high in low-resource settings in which only a rather small number of non-English pairs is available. As it is often possible to automatically gather English training pairs from the Web by exploiting schema.org annotations, our results are relevant for many product matching scenarios targeting low-resource languages.




Dieser Eintrag ist Teil der Universitätsbibliographie.

Das Dokument wird vom Publikationsserver der Universitätsbibliothek Mannheim bereitgestellt.




Metadaten-Export


Zitation


+ Suche Autoren in

+ Download-Statistik

Downloads im letzten Jahr

Detaillierte Angaben



Sie haben einen Fehler gefunden? Teilen Sie uns Ihren Korrekturwunsch bitte hier mit: E-Mail


Actions (login required)

Eintrag anzeigen Eintrag anzeigen