Vers une meilleure modélisation du langage : la prise en compte des séquences dans les modèles statistiques - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Communication Dans Un Congrès Année : 2000

Vers une meilleure modélisation du langage : la prise en compte des séquences dans les modèles statistiques

Résumé

Nous trouvons dans la langue naturelle, plusieurs séquences de mots clés traduisant la structure d'une phrase. Ces séquences sont de longueur variable et permettent d'avoir une élocution naturelle. Pour tenir compte de ces séquences lors de la reconnaissance de la parole, nous les avons considérées comme des unités et nous les avons ajoutées au vocabulaire de base. Par conséquent, les modèles de langage utilisant ce nouveau vocabulaire se fondent sur un historique d'unités où chacune d'entre elles peut être, soit un mot, soit une séquence. Nous présentons dans ce papier une méthode originale d'extraction de séquences de mots linguistiquement viable ; cette méthode se fonde sur le principe de la théorie de l'information. Nous exposons également dans ce papier différents modèles de langage se basant sur ces séquences. l'évaluation a été effectué avec un dictionnaire de 20000 mots et avec un corpus de 43 million de mots. l'utilisation des séquences a amélioré la perplexité d'environ 23% et le taux d'erreur de notre système de reconnaissance vocale MAUD d'environ 20%. || In natural language, several sequences of words are very frequent. Conventional language models do not adequately take into account such sequences, because they underestimate their probabilities. A better approach consists in modeling word sequences as if
Fichier principal
Vignette du fichier
A00-R-169.pdf (119 Ko) Télécharger le fichier
Loading...

Dates et versions

inria-00099038 , version 1 (26-09-2006)

Identifiants

  • HAL Id : inria-00099038 , version 1

Citer

Imed Zitouni, Kamel Smaïli. Vers une meilleure modélisation du langage : la prise en compte des séquences dans les modèles statistiques. XXIIIèmes Journées d'Etude sur la Parole - JEP'2000, 2000, Aussois, France, 4 p. ⟨inria-00099038⟩
137 Consultations
137 Téléchargements

Partager

Gmail Facebook X LinkedIn More