Extraction automatique de termes à partir de textes polonais

Anna Kupść

Communication Dans Un Congrès Année : 2006

Extraction automatique de termes à partir de textes polonais

(1, 2)

1
2

Anna Kupść

Fonction : Auteur
PersonId : 863656

Instytut Podstaw Informatyki

Human-machine dialogue with a significant language component

Résumé

Cet article présente nos études sur l'extraction (aquisition) automatique de termes à partir de textes specialisés écrits en polonais. Notre travail a pour objectif le développement de ressources linguistiques. Les outils pour l'aquisition de termes sont assez bien décrits pour l'anglais ou le français (Smadja 1993 ; Daille 1996 ; Justeson & Katz 1991 ; Bourigault 1994 ; Bowden et al. 1998), mais la question reste peu étudiée pour les langues slaves, qui se caractérisent par leur flexion plus riche et leur ordre des mots plus libre. Pour le polonais, nous avons adopté la méthode de Frantzi et al. (2002), déjà utilisée pour deux autres langues slaves : le slovène (Vintar 2004) et le serbe (Nenadic et al. 2003). La méthode permet de découvrir des termes complexes (comprenant plusieurs mots) et enchâssés, en utilisant une approche hybride, appliquée au corpus specialisé. L'article est organisé de la manière suivante : la section 2 présente le corpus, la méthode appliquée est décrite dans la section 3, les résultats d'extraction et les problèmes rencontrés sont examinés dans les sections 4 et 5, respectivement ; la conclusion dans la section 6 termine l'article.

Domaines

Linguistique

Anna Kupsc : Connectez-vous pour contacter le contributeur

https://inria.hal.science/inria-00421002

Soumis le : mercredi 30 septembre 2009-13:14:39

Dernière modification le : jeudi 4 janvier 2024-22:12:05

Dates et versions

inria-00421002 , version 1 (30-09-2009)

Identifiants

HAL Id : inria-00421002 , version 1

Citer

Anna Kupść. Extraction automatique de termes à partir de textes polonais. 4e Journées Linguistique de Corpus - JLC 4, 2006, Lorient, France. ⟨inria-00421002⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS INRIA UNIV-LORRAINE INRIA2 LORIA

60 Consultations

0 Téléchargements

Extraction automatique de termes à partir de textes polonais

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager