Resource-lean transfer methods for cross-lingual information retrieval

Litschko, Robert

PDF
RL_thesis_camera-ready.pdf - Veröffentlichte Version
Download (3MB)

URN:	urn:nbn:de:bsz:180-madoc-683180
Dokumenttyp:	Dissertation
Erscheinungsjahr:	2024
Ort der Veröffentlichung:	Mannheim
Hochschule:	Universität Mannheim
Gutachter:	Glavaš, Goran
Datum der mündl. Prüfung:	11 Juli 2024
Sprache der Veröffentlichung:	Englisch
Einrichtung:	Fakultät für Wirtschaftsinformatik und Wirtschaftsmathematik > Information Systems III: Enterprise Data Analysis (Ponzetto 2016-)
Lizenz:	Creative Commons Namensnennung 4.0 International (CC BY 4.0)
Fachgebiet:	004 Informatik
Freie Schlagwörter (Englisch):	information retrieval , natural language processing , cross-lingual information retrieval
Abstract:	Cross-Lingual Information Retrieval (CLIR) is the task of finding relevant documents written in a language different from the query language. Neural machine translation systems and CLIR models based on supervised machine learning (deep learning) are resource-hungry approaches requiring large amounts of training data, which is expensive to obtain and therefore does not scale well to a large number of languages. In this thesis, we study methods for transferring retrieval models across languages in a resource-lean way. The overarching goal is to build effective CLIR systems for languages for which we do not have access to large-scale training data. On a high level, our contributions fall into three areas. Unsupervised learning of CLIR models. In the first part, we propose two fully unsupervised neural CLIR approaches for which no relevance annotations are required. In the representation-based approach, we encode queries and documents into independent semantic vector representations and use vector space similarity measures to calculate document relevance scores. Here, we obtain aligned query and document representations from static cross-lingual word embeddings (CLWEs) and contextual representations produced by multilingual text encoders. In the term-by-term query translation approach, we translate query terms by replacing their occurrences with their cross-lingual nearest neighbors found in CLWE spaces, effectively casting CLIR into a noisy variant of monolingual IR (MoIR). We conduct a large-scale evaluation and, surprisingly, find that off-the-shelf multilingual text encoders fall behind CLWE-based methods in a direct comparison, whereas further specialization for sentence-level semantics yields the best results. Resource-lean transfer of CLIR models. In the second part, we focus on the standard zero-shot cross-lingual transfer (ZS-XLT) setup and use English training data to transfer cross-encoder (CE) reranking models to other languages. We first show that this approach suffers from "monolingual overfitting" where models are biased towards lexical matches between query and document tokens. To regularize this bias, we propose to train CEs on code-switched data instead. Our results show that this consistently improves the ZS-XLT performance for CLIR and maintains stable performance in MoIR. Next, we rely on parameter-efficient transfer methods to disentangle the task of learning-to-rank from learning target language semantics. We show that this modular approach improves upon the standard ZS-XLT approach in a scenario where the training and test data are in different domains. In the third part, we present on the example task of multilingual dependency parsing a proof of concept for instance-level model selection. Here, we propose cross-lingual transfer with multiple monolingual expert models by using a routing model. Moving away from a single multilingual model bypasses any capacity limits in terms of number of languages ("curse of multilinguality"). Our results pave the way for future work on CLIR involving multiple encoders (e.g. language-family specific encoders).
Übersetzung des Abstracts:	Bei sprachübergreifender Informationssuche (engl. Cross-Lingual Information Retrieval; CLIR) geht es darum, relevante Dokumente zu finden, die in einer anderen Sprache als die der Suchabfrage geschrieben sind. Neuronale maschinelle Übersetzung und CLIR-Modelle basierend auf überwachtem maschinellem Lernen (Deep Learning) sind ressourcenintensiv und erfordern große Mengen an Trainingsdaten, deren Beschaffung teuer ist und sich daher nicht gut auf eine große Anzahl von Sprachen ausweiten lässt. In dieser Arbeit untersuchen wir deshalb ressourceneffiziente Methoden, mit denen wir IR-Modelle zwischen verschiedenen Sprachen transferieren können. Das übergeordnete Ziel besteht darin, effektive CLIR-Systeme für Sprachen zu entwickeln, für die wir keinen Zugriff auf umfangreiche Trainingsdaten haben. Der Forschungsbeitrag dieser Arbeit lässt sich in folgende drei Bereiche zusammenfassen. Unüberwachtes Lernen von CLIR-Modellen. Im ersten Teil stellen wir zwei unüberwachte Ansätze vor, mit denen wir CLIR-Modelle erhalten, ohne auf Relevanzannotionen zurückzugreifen. Im repräsentationsbasierten Ansatz enkodieren wir Suchabfragen und Dokumente unabhängig voneinander in semantische Vektorepräsentationen und verwenden diese, um mithilfe von Ähnlichkeitsmaßen Relevanzwerte zu berechnen. Für das Enkodieren verwenden wir sprachübergreifende Wortvektoren (engl. Cross-Lingual Word Embeddings; CLWE) und kontextualisierte Repräsentationen, die von mehrsprachigen Textkodierern erstellt werden. Im zweiten Ansatz, Term-für-Term-Abfrageübersetzung, ersetzen wir jedes Abfragewort durch seinen nächsten sprachübergreifenden Nachbarn im CLWE-Raum und überführen dadurch CLIR in ein monolinguales IR (MoIR) Problem. Wir vergleichen unsere Ansätze in einer umfangreichen Studie und stellen überraschenderweise fest, dass mehrsprachige Sprachmodelle schlechter abschneiden als CLWE-basierte Ansätze, wohingegen eine weitere Spezialisierung auf Semantik auf Satzebene die besten Ergebnisse liefert. Ressourceneffizienter Transfer von CLIR-Modellen. Im zweiten Teil konzentrieren wir uns auf den Standardansatz für sprachübergreifenden Zero-Shot-Transfer (engl. Zero-Shot Cross-lingual Transfer; ZS-XLT) und verwenden ausschließlich englische Trainingsdaten, um Cross-Encoder (CE) Modelle in andere Sprachen zu transferieren. Wir zeigen zunächst auf, dass dieser Ansatz an einer "monolingualen Überanpassung" leidet, bei der Modelle zu sehr auf lexikalische Übereinstimmungen zwischen Abfrage- und Dokument-Tokens ausgerichtet sind. Um diesen Bias zu regulieren, schlagen wir vor, CE-Modelle stattdessen auf durch Code-Switching manipulierte Daten zu trainieren. Unsere Ergebnisse zeigen, dass wir damit deren ZS-XLT-Leistung für CLIR konsistent verbessern, ohne dabei die Ergebnisse in MoIR zu verschlechtern. Als Nächstes verwenden wir parametereffiziente Transfermethoden, um die Aufgabe des Erlernens von Relevanzmerkmalen vom Erlernen der Zielsprachensemantik zu entkoppeln. Wir zeigen, dass dieser modulare Ansatz besser als der Standard-ZS-XLT-Ansatz abschneidet, wenn die Trainings- und Testdaten in unterschiedlichen Domänen vorliegen. Im dritten Teil präsentieren wir, am Beispiel von multilingualem Dependenzparsing, eine Machbarkeitsstudie zur Modellselektion auf Instanzebene. Hierbei lernen wir ein Modell, das darauf spezialisiert ist, einzelne Instanzen an einen oder mehrere monolinguale Expertenmodelle weiterzuleiten. Dabei umgehen wir mögliche Kapazitätsgrenzen hinsichtlich der Anzahl der unterstützen Sprachen, denen multilinguale Sprachmodelle ausgesetzt sind (sog. "curse of multilinguality"). Unsere Ergebnisse ebnen den Weg für zukünftige Arbeiten an CLIR mit mehreren Textkodierern, die zum Beispiel auf Daten von verschiedenen Sprachfamilien trainiert wurden. (Deutsch)
Zusätzliche Informationen:	Verfasser hier: Litschko, Robert Manfred