Portage linguistique de l'arabe et vers l'arabe

Najeh Hajlaoui; Christian Boitet

Communication Dans Un Congrès Année : 2009

Portage linguistique de l'arabe et vers l'arabe

(1, 2, 3) , (4)

1
2
3
4

Najeh Hajlaoui

Fonction : Auteur
PersonId : 855324

Laboratoire d'Informatique de Grenoble

Institut d'Informatique et de Mathématiques Appliquées de Grenoble

Communication Langagière et Interaction Personne-Système

Christian Boitet

Fonction : Auteur

Groupe d’Étude en Traduction Automatique/Traitement Automatisé des Langues et de la Parole

Résumé

Nous nous intéressons à la multilinguïsation, ou " portage linguistique " (plus simple que la localisation) des services de gestion de contenu traitant des énoncés spontanés en langue naturelle, souvent bruités, mais contraints par la situation, et constituant toujours un " sous-langage " plus ou moins restreint. Un service de ce type (soit App) utilise une représentation du contenu spécifique (RC-App) sur laquelle travaille le noyau fonctionnel. Le plus souvent, cette représentation est produite à partir de la langue " native " L1 par un extracteur de contenu (EC-App). Nous avons dégagé trois méthodes de portage possibles, et les avons illustrées par le portage en français d'une partie de CATS, un système de traitement de petites annonces en SMS (en arabe) déployé à Amman, ainsi que sur IMRS, un système de recherche de morceaux de musique dont l'interface native est en japonais et dont seule la RC est accessible. Il s'agit de : (1) localisation " interne ", i.e. adaptation à L2 de l'EC donnant EC-App-L2 ; (2) localisation " externe ", i.e. adaptation d'un EC existant pour L2 au domaine et à la représentation de contenu de App (EC-X-L2-App); (3) traduction automatique des énoncés de L2 vers L1. Le choix de la stratégie est contraint par la situation traductionnelle : types et niveau d'accès possibles (accès complet au code source, accès limité à la représentation interne, accès limité au dictionnaire, et aucun accès), ressources disponibles (dictionnaires, corpus), compétences langagières et linguistiques des personnes intervenant dans la multilinguïsation des applications. Les trois méthodes ont donné de bons résultats sur le portage d'arabe en français de la partie de CATS concernant l'occasion automobile. En localisation interne, la partie grammaticale a été très faiblement modifiée, ce qui prouve que, malgré la grande distance entre l'arabe et le français, ces deux sous-langages sont très proches l'un de l'autre, une nouvelle illustration de l'analyse de R. Kittredge. La localisation externe a été expérimentée sur CATS et sur IMRS en adaptant au nouveau domaine considéré l'extracteur de contenu du français écrit initialement par H. Blanchon pour le domaine du tourisme (projet CSTAR/Nespole!), puis en changeant de langue pour IMRS (anglais, arabe). Enfin, le portage par TA statistique a également donné de très bonnes performances, et cela avec un corpus d'apprentissage très petit (moins de 10.000 mots) et un dictionnaire complet. Cela prouve que, dans le cas de sous-langages très petits, la TA statistique peut être de qualité suffisante en partant de corpus 100 à 500 fois moins grands que pour de la langue générale.

Mots clés

énoncés spontanés langue naturelle e-commerce portage linguistique sous-langage extraction de contenu traduction statistique corpus. corpus

Domaines

Informatique et langage [cs.CL]

Fichier principal

InfoLangue_09-N_HAJLAOUI-C_BOITET-V3.pdf (370.29 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Najeh Hajlaoui : Connectez-vous pour contacter le contributeur

https://hal.science/hal-00390852

Soumis le : mardi 2 juin 2009-19:43:52

Dernière modification le : jeudi 4 avril 2024-18:25:46

Archivage à long terme le : vendredi 11 juin 2010-00:13:46

Dates et versions

hal-00390852 , version 1 (02-06-2009)

Identifiants

HAL Id : hal-00390852 , version 1

Citer

Najeh Hajlaoui, Christian Boitet. Portage linguistique de l'arabe et vers l'arabe. Infol@ngues III : Informatique et langues, Feb 2009, Tunisie. 10 p. ⟨hal-00390852⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UGA IMAG CNRS LIG LIG_TDCGE LIG_TDCGE_GETALP LIG_SIDCH

166 Consultations

110 Téléchargements

Portage linguistique de l'arabe et vers l'arabe

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager