Modélisation de trajectoires et de classes de locuteurs pour la reconnaissance de voix d'enfants et d'adultes

Arseniy Gorin; Denis Jouvet

Communication Dans Un Congrès Année : 2014

Explicit trajectories and speaker class modeling for child and adult speech recognition

Modélisation de trajectoires et de classes de locuteurs pour la reconnaissance de voix d'enfants et d'adultes

(1) , (1)

Arseniy Gorin

Fonction : Auteur
PersonId : 957227

Analysis, perception and recognition of speech

Denis Jouvet

Fonction : Auteur
PersonId : 15904
IdHAL : denis-jouvet
IdRef : 029418666

Analysis, perception and recognition of speech

Résumé

When the speech data is produced by speakers of different age and gender, the acoustic variability of any given phonetic unit becomes large, which degrades speech recognition performance. One way to go beyond conventional Hidden Markov Model is to explicitly include speaker class information in the modeling. Speaker classes can be obtained automatically, and they are used for building speaker class-specific acoustic models. This paper introduces a structuring of the Gaussian components of the GMM densities with respect to the speaker classes. In a first approach, this structuring of the Gaussian components is completed with speaker class-dependent mixture weights, and in a second approach, with transition matrices, which add dependencies between Gaussian components of mixture densities (as in stranded GMMs). The two approaches bring substantial performance improvements when recognizing adult and child speech. Using class-structured components plus mixture transition matrices reduces by more than one third the word error rate on the TIDIGIT corpus.

RÉSUMÉ Lorsque l'on considère de la parole produite par des enfants et des adultes, la variabilité acous-tique de chaque unité phonétique devient grande, ce qui dégrade les performances de recon-naissance. Un moyen d'aller au-delà des modèles de Markov traditionnels, est de prendre en considération des classes de locuteurs. Les classes de locuteurs peuvent être obtenues automa-tiquement. Elles servent à fabriquer des modèles acoustiques spécifiques de chaque classe. Ce papier propose une structuration des composantes des densités multigaussiennes (GMMs) en re-lation avec des classes de locuteurs. Dans une première approche, cette structuration des densités est complétée par des pondérations des composantes gaussiennes dépendantes des classes de locuteurs, et dans une deuxième approche, par des matrices de transition entre les composantes gaussiennes des densités (comme dans les stranded GMMs). Ces deux approches apportent des gains substantiels pour la reconnaissance de voix d'enfants et d'adultes. La structuration des composantes gaussiennes complétée par des matrices de transition entre composantes réduit de plus d'un tiers le taux d'erreur mot sur le corpus TIDIGIT.

Mots clés

Speech recognition unsupervised clustering speaker class modeling stochastic trajectory modeling.

Reconnaissance de la parole classification non supervisée modèles de classes de locuteurs modèles stochastiques de trajectoire.

Domaines

Traitement du signal et de l'image [eess.SP]

Fichier principal

jep2014-agorin-V5-FR-V.01.pdf (143.24 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Denis Jouvet : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-01080343

Soumis le : mercredi 5 novembre 2014-09:29:03

Dernière modification le : lundi 11 septembre 2023-17:41:19

Archivage à long terme le : vendredi 6 février 2015-10:11:04

Dates et versions

hal-01080343 , version 1 (05-11-2014)

Identifiants

HAL Id : hal-01080343 , version 1

Citer

Arseniy Gorin, Denis Jouvet. Modélisation de trajectoires et de classes de locuteurs pour la reconnaissance de voix d'enfants et d'adultes. XXXème édition des Journées d'Etudes sur la Parole, Jun 2014, Le Mans, France. ⟨hal-01080343⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS INRIA UNIV-LORRAINE INRIA2 LORIA LORIA-NLPKD

232 Consultations

382 Téléchargements

Explicit trajectories and speaker class modeling for child and adult speech recognition

Modélisation de trajectoires et de classes de locuteurs pour la reconnaissance de voix d'enfants et d'adultes

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager