Following recent trends on hybridization of machine translation architectures, this paper presents an experiment on the integration of a phrase-based system with syntactically-motivated bilingual pairs, namely the so-called catenae, extracted from a dependency-based parallel treebank. The experiment consisted in combining in different ways a phrasebased translation model, as typically conceived in Phrase-Based Statistical Machine Translation, with a small set of bilingual pairs of such catenae. The main goal is to study, though still in a preliminary fashion, how such units can be of any use in improving automatic translation quality. L’integrazione di conoscenza linguistica all’interno di sistemi di traduzione automatica statistica è un trend diffuso e motivato dal tentativo di combinare le migliori caratteristiche dei sistemi basati su regole con approcci puramente statistici e basati su corpora. Il presente lavoro si inserisce all’interno di queste ricerche e costituisce uno studio preliminare sull’applicazione di una nozione sintattica basata su dipendenze, quella delle cosiddette ”catenae”, all’interno di una tipica architettura di traduzione statistica.
Experimenting the use of catenae in Phrase-Based SMT
Sanguinetti Manuela
2016-01-01
Abstract
Following recent trends on hybridization of machine translation architectures, this paper presents an experiment on the integration of a phrase-based system with syntactically-motivated bilingual pairs, namely the so-called catenae, extracted from a dependency-based parallel treebank. The experiment consisted in combining in different ways a phrasebased translation model, as typically conceived in Phrase-Based Statistical Machine Translation, with a small set of bilingual pairs of such catenae. The main goal is to study, though still in a preliminary fashion, how such units can be of any use in improving automatic translation quality. L’integrazione di conoscenza linguistica all’interno di sistemi di traduzione automatica statistica è un trend diffuso e motivato dal tentativo di combinare le migliori caratteristiche dei sistemi basati su regole con approcci puramente statistici e basati su corpora. Il presente lavoro si inserisce all’interno di queste ricerche e costituisce uno studio preliminare sull’applicazione di una nozione sintattica basata su dipendenze, quella delle cosiddette ”catenae”, all’interno di una tipica architettura di traduzione statistica.I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.


