Vers une meilleure modélisation du langage : la prise en compte des séquences dans les modèles statistiques

Imed Zitouni; Kamel Smaïli

Communication Dans Un Congrès Année : 2000

Vers une meilleure modélisation du langage : la prise en compte des séquences dans les modèles statistiques

(1) , (1)

Imed Zitouni

Fonction : Auteur

Analysis, perception and recognition of speech

Kamel Smaïli

Fonction : Auteur
PersonId : 2521
IdHAL : kamel-smaili
IdRef : 034429700

Analysis, perception and recognition of speech

Résumé

Nous trouvons dans la langue naturelle, plusieurs séquences de mots clés traduisant la structure d'une phrase. Ces séquences sont de longueur variable et permettent d'avoir une élocution naturelle. Pour tenir compte de ces séquences lors de la reconnaissance de la parole, nous les avons considérées comme des unités et nous les avons ajoutées au vocabulaire de base. Par conséquent, les modèles de langage utilisant ce nouveau vocabulaire se fondent sur un historique d'unités où chacune d'entre elles peut être, soit un mot, soit une séquence. Nous présentons dans ce papier une méthode originale d'extraction de séquences de mots linguistiquement viable ; cette méthode se fonde sur le principe de la théorie de l'information. Nous exposons également dans ce papier différents modèles de langage se basant sur ces séquences. l'évaluation a été effectué avec un dictionnaire de 20000 mots et avec un corpus de 43 million de mots. l'utilisation des séquences a amélioré la perplexité d'environ 23% et le taux d'erreur de notre système de reconnaissance vocale MAUD d'environ 20%. || In natural language, several sequences of words are very frequent. Conventional language models do not adequately take into account such sequences, because they underestimate their probabilities. A better approach consists in modeling word sequences as if

Mots clés

language modeling n-gram n-gramme séquence reconnaissance de la parole speech recognition modèle de langage

Domaines

Autre [cs.OH]

Fichier principal

A00-R-169.pdf (119 Ko)

Publications Loria : Connectez-vous pour contacter le contributeur

https://inria.hal.science/inria-00099038

Soumis le : mardi 26 septembre 2006-08:47:29

Dernière modification le : vendredi 24 mars 2023-14:52:48

Archivage à long terme le : mercredi 29 mars 2017-12:44:47

Dates et versions

inria-00099038 , version 1 (26-09-2006)

Identifiants

HAL Id : inria-00099038 , version 1

Citer

Imed Zitouni, Kamel Smaïli. Vers une meilleure modélisation du langage : la prise en compte des séquences dans les modèles statistiques. XXIIIèmes Journées d'Etude sur la Parole - JEP'2000, 2000, Aussois, France, 4 p. ⟨inria-00099038⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS INRIA UNIV-LORRAINE INRIA2 LORIA

137 Consultations

137 Téléchargements

Vers une meilleure modélisation du langage : la prise en compte des séquences dans les modèles statistiques

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager