Extraction et Complétion de Terminologies Multilingues

Valérie Hanoka

Résumé

Until now, automatic terminology extraction techniques have been often targeted towards monolingual corpora that are homogeneous from a language register point of view. This work, carried out in the context of a CIFRE convention, extends this objective to non-edited textual data written in typologically diverse languages, in order to extract « field terms ». This work focuses on the analysis of verbatim produced in the context of employee surveys carried out within multinational companies and processed by the Verbatim Analysis - VERA company. It involves the design and development of a processing pipeline for automatically extracting terminologies in a virtually language-independent, register-independent and domain-independent way. Based on an assessment of the typological properties of seven diverse languages, we propose a preliminary text pre-processing step prepares the training of models. This step is partly necessary (tokenization) and partly optional (removal of part of the morphological information). We compute from the resulting data a series of numerical features (statistical and frequency-based) used for training statistical models (CRFs). We select a first set of best models by means of an automatic dedicated evaluation of the extracted terms produced in each of the experimental settings considered for each languages. We then carry out a second series of evaluations for assessing the usability of these models on languages that differ from their training languages. Our results tend to demonstrate that the quality of the field terms that we extract is satisfying. The best scores we obtain (in a monolingual setting) are above 0, 9 for most languages. These scores can even be further improved for several languages by using some of the best models trained on other languages ; as a result, our approach could prove useful for extracting terminologies in languages for which such models are not available.

Les processus d’extraction terminologique automatique ont été jusqu’ici majoritairement conçus pour être appliqués à des corpus monolingues et dans des registres de langue uniformes. Cette thèse, réalisée dans le cadre d’une convention CIFRE, prolonge cet objectif pour une application à des données textuelles bruitées et issues de langues de plus en plus variées, pour l’extraction de « termes de terrain ». Ce travail s’inscrit dans le cadre de l’analyse de verbatim issus d’enquêtes internes au sein de multinationales traitées par l’entreprise Verbatim Analysis - VERA ; il consiste à élaborer une séquence de traitements pour l’extraction automatique de terminologies qui soit faiblement dépendante de la langue, du registre de langue ou du domaine. Suivant une réflexion fondée sur différents aspects de typologie linguistique appliquée à sept langues, nous proposons des prétraitements textuels préliminaires à l’entraînement de modèles. Ces derniers sont soit indispensables (segmentation en tokens), soit optionnels (amputation d’une partie de l’information morphologique). Sur l’ensemble des données ainsi produites, nous calculons des traits numériques (statistiques ou fréquentiels) pour l’entraînement des modèles statistiques de type CRF. Nous sélectionnons un ensemble de meilleurs modèles grâce à une évaluation automatisée, au moyen d’une métrique adaptée, des termes extraits par les modèles produits pour l’ensemble des cadres expérimentaux envisagés pour chaque langue. Nous réalisons alors une seconde série d’évaluations pour étudier l’exploitabilité de ces modèles pour d’autres langues que celles sur lesquelles ils ont été entraînés. Il ressort de ces expériences que cette méthode aboutit à une extraction de termes de terrain de qualité satisfaisante. Les meilleurs scores obtenus (pour une évaluation monolingue des modèles) se situent, pour la majorité des langues, au-dessus de l’iso-ligne de f-score 0, 9. Ces scores peuvent même être améliorés pour certaines langues grâce à l’application trans-lingue des meilleurs modèles d’autres langues ; il en ressort que notre approche constitue potentiellement un bon levier à des extractions terminologiques pour des langues ne disposant pas de leurs propres modèles. La seconde partie de notre travail présente nos travaux relatifs à la complétion automatique de terminologies structurées multilingues. Nous avons proposé et évalué deux algorithmes de complétion qui prennent en entrée un graphe de traduction multilingue (que nous construisons à partir de ressources libres) et une terminologie multilingue structurée. Ils proposent alors de nouveaux candidats termes pour cette dernière. Notre approche permet de compléter la terminologie structurée dans une langue qu’elle couvre déjà, mais également d’étendre sa couverture à de nou- velles langue. L’un de ces algorithmes est également appliqué au wordnet du français WOLF, ce qui en permet une amélioration importante de la couverture.

Extraction and Extension of Multilingual Terminologies

Extraction et Complétion de Terminologies Multilingues

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager