Extraction automatique de termes à partir de textes polonais - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Communication Dans Un Congrès Année : 2006

Extraction automatique de termes à partir de textes polonais

Résumé

Cet article présente nos études sur l'extraction (aquisition) automatique de termes à partir de textes specialisés écrits en polonais. Notre travail a pour objectif le développement de ressources linguistiques. Les outils pour l'aquisition de termes sont assez bien décrits pour l'anglais ou le français (Smadja 1993 ; Daille 1996 ; Justeson & Katz 1991 ; Bourigault 1994 ; Bowden et al. 1998), mais la question reste peu étudiée pour les langues slaves, qui se caractérisent par leur flexion plus riche et leur ordre des mots plus libre. Pour le polonais, nous avons adopté la méthode de Frantzi et al. (2002), déjà utilisée pour deux autres langues slaves : le slovène (Vintar 2004) et le serbe (Nenadic et al. 2003). La méthode permet de découvrir des termes complexes (comprenant plusieurs mots) et enchâssés, en utilisant une approche hybride, appliquée au corpus specialisé. L'article est organisé de la manière suivante : la section 2 présente le corpus, la méthode appliquée est décrite dans la section 3, les résultats d'extraction et les problèmes rencontrés sont examinés dans les sections 4 et 5, respectivement ; la conclusion dans la section 6 termine l'article.

Domaines

Linguistique
Fichier non déposé

Dates et versions

inria-00421002 , version 1 (30-09-2009)

Identifiants

  • HAL Id : inria-00421002 , version 1

Citer

Anna Kupść. Extraction automatique de termes à partir de textes polonais. 4e Journées Linguistique de Corpus - JLC 4, 2006, Lorient, France. ⟨inria-00421002⟩
60 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More