Contribution de l'approche multi-bandes à la reconnaissance automatique de la parole - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Thèse Année : 1999

Contribution de l'approche multi-bandes à la reconnaissance automatique de la parole

Résumé

Non disponible / Not available
Le travail de recherche présenté dans ce mémoire réalise l'étude d'une nouvelle architecture pour les systèmes de reconnaissance automatique de la parole. Cette architecture est basée sur un découpage du spectre du signal en plusieurs zones fréquentielles, éventuellement recouvrantes, et sur un traitement indépendant de chacune de ces «bandes». Celles-ci sont ensuite recombinées afin de fournir une réponse unique au problème de la reconnaissance. L'utilisation de cette méthode dite « Multi-Bandes » est à l'origine motivée par les travaux du psycho-acousticien H. Fletcher, travaux qui ont été récemment reconsidérés par J. B. Allen et qui aboutissent à un modèle de l'audition humaine proche de ce principe. L'application de celui-ci à une tâche de reconnaissance automatique de la parole est généralement motivée par sa robustesse aux bruits limités fréquentiellement. Nous montrons dans ce mémoire qu'il possède d'autres avantages, moins attendus, comme la résistance à tous les types de bruits stationnaires, et qu'il peut également surpasser le système de référence dans des environnements non bruités.Ce mémoire commence par présenter les travaux existant dans le domaine du « Multi-Bandes », puis réalise une étude préliminaire du comportement de chacune des bandes. Ensuite, le problème du choix du module de recombinaison est posé, et plusieurs solutions sont proposées et testées. De même, nous montrons qu'il n'est pas possible d'utiliser l'algorithme classique de Viterbi en reconnaissance continue lorsque les bandes sont asynchrones, et différentes autres possibilités sont étudiées. Nous proposons ainsi deux algorithmes permettant de recombiner les bandes soit en fin de phrase, soit après des segments temporels associés à des unités de parole, comme les phonèmes.
Fichier non déposé

Dates et versions

tel-01750565 , version 1 (29-03-2018)

Identifiants

  • HAL Id : tel-01750565 , version 1

Lien texte intégral

Citer

Christophe Cerisara. Contribution de l'approche multi-bandes à la reconnaissance automatique de la parole. Autre [cs.OH]. Institut National Polytechnique de Lorraine, 1999. Français. ⟨NNT : 1999INPL077N⟩. ⟨tel-01750565⟩
49 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More