Comparing rule-based and SMT-based spelling normalisation for English historical texts


Schneider, Gerold ; Pettersson, Eva ; Percillier, Michael



URL: http://www.ep.liu.se/ecp/133/008/ecp17133008.pdf
Weitere URL: http://aclweb.org/anthology/W17-05
Dokumenttyp: Konferenzveröffentlichung
Erscheinungsjahr: 2017
Buchtitel: Proceedings of the NoDaLiDa 2017 Workshop on Processing Historical Language : 22 May 2017, Gothenburg
Titel einer Zeitschrift oder einer Reihe: NEALT Proceedings Series
Band/Volume: 32
Seitenbereich: 40-46
Veranstaltungstitel: NoDaLiDa 2017 Workshop on Processing Historical Language
Veranstaltungsort: Göteburg, Sweden
Veranstaltungsdatum: 22.05.2017
Herausgeber: Bouma, Gerlof
Ort der Veröffentlichung: Linköping
Verlag: Linköping University Electronic Press
ISBN: 978-91-7685-503-4
ISSN: 1650-3686 , 1650-3740
Sprache der Veröffentlichung: Englisch
Einrichtung: Philosophische Fakultät > Anglistik IV - Anglistische Linguistik/Diachronie (Trips 2006-)
Fachgebiet: 420 Englisch
Abstract: To be able to use existing natural language processing tools for analysing historical text, an important preprocessing step is spelling normalisation, converting the original spelling to present-day spelling, before applying tools such as taggers and parsers. In this paper, we compare a probablistic, language-independent approach to spelling normalisation based on statistical machine translation (SMT) techniques, to a rule-based system combining dictionary lookup with rules and non-probabilistic weights. The rule-based system reaches the best accuracy, up to 94% precision at 74% recall, while the SMT system improves each tested period.
Zusätzliche Informationen: Linköping Electronic Conference Proceedings ; 133. - Online-Ressource




Dieser Eintrag ist Teil der Universitätsbibliographie.




Metadaten-Export


Zitation


+ Suche Autoren in

+ Aufruf-Statistik

Aufrufe im letzten Jahr

Detaillierte Angaben



Sie haben einen Fehler gefunden? Teilen Sie uns Ihren Korrekturwunsch bitte hier mit: E-Mail


Actions (login required)

Eintrag anzeigen Eintrag anzeigen