Statistical Machine Translation: Application to low resourced languages

Salima Harrat

Résumé

This work is dedicated to statistical machine translation for poorly resourced languages. We are interested in Arabic dialects which represent the daily language of all Arab peoples. These dialects differ from one Arab country to another and even in the same country several variations of dialects coexist. These dialects by their oral nature and non-standard represent a challenge in NLP. In machine translation, these dialects are difficult to translate because of the lack of resources (of all natures) in particular the monolingual and especially parallel corpora necessary for training. In this thesis, we are interested by this issue with particular attention to the Algerian dialect and more precisely to the Algiers dialect. A parallel multi-dialect PADIC corpus (for Parallel Arabic Dialect Corpus) has been created, this is a textual resource important which includes, so far, six Arabic dialects in addition to Modern Standard Arabic. This corpus was the subject of an analytical study to highlight the relationship between dialects (between them) and Standard Arabic. By means of the corpus PADIC, we tackled the problem of statistical machine translation between the different dialect pairs and Standard Arabic. Several results have been obtained and all point to the difficulty of translating dialects. In addition, several tools dedicated to the Algiers dialect have been produced in the framework of this thesis. The problem of code-switching was also discussed where an identification tool was implemented using techniques of "Machine Learning".

Le présent travail s’articule autour de la traduction automatique statistique dans le cadre des langues peu dotées en ressources. On s’intéresse aux dialectes arabes qui représentent le parlé quotidien de tous les peuples arabes. Ces dialectes différent d’un pays arabe à un autre et même dans un même pays on constate l’existence de plusieurs variantes de dialectes. Ces dialectes de par leur nature orale et non-standard représentent un défi pour le domaine de traitement automatique des langues. Dans le cadre précis de la traduction automatique statistique, ces dialectes sont difficiles à prendre en charge à cause de l’absence de ressources (de toutes natures) notamment les corpus monolingues et surtout parallèles nécessaires pour l’apprentissage des différents modèles statistiques. Dans cette thèse, on s’intéresse à cette problématique avec une attention particulière au dialecte algérien et plus précisément le dialecte algérois. Un corpus parallèle multi-dialecte PADIC (pour Parallel Arabic Dialect Corpus) a été créé, il s’agit d’une ressource textuelle importante qui comprend, jusqu’à présent, six dialectes arabes en plus de l’arabe standard. Ce corpus a fait l’objet d’une étude analytique pour mettre en relief la relation entre les dialectes (entre eux) et l’arabe standard. Au moyen du corpus PADIC, on s’est attaqué au problème de la traduction automatique statistique entre les différentes paires de dialectes et l’arabe standard. Plusieurs résultats ont été obtenus et vont tous dans le sens de la difficulté de la traduction des dialectes. Par ailleurs, plusieurs outils dédiés au dialecte algérois ont été réalisés dans le cadre de cette thèse. Le problème du code-switching a été aussi abordé au cours de ce travail où un outil d’identification a été mis en œuvre grâce aux techniques du « Machine Learning ».

Statistical Machine Translation: Application to low resourced languages

Traduction Automatique Fondée sur des Méthodes Statistiques : Application aux Langues peu Dotées en Ressources

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager