Prédiction du mouvement des lèvres à partir d'un signal de parole pour l'animation d'un avatar - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Mémoire D'étudiant Année : 2011

Prédiction du mouvement des lèvres à partir d'un signal de parole pour l'animation d'un avatar

Résumé

Lip sync correspond to all the techniques that synchronize sounds and lips movement. It is used in several applications like virtual characters animation, playback, or dubbing. In spite of this simple and natural utilization in show business, this field remains a great challenge for scientist. The purpose of this report is to show abilities of artificial neural networks to match up audio features with lips position in real time. The aim is to provide a system more responsive than the former one based on Hidden Markov Models (HMM). It will recognize acoustic units such as phonemes or visemes. Speech recognition technics, generally off-line, use many contextual information. In our case the system will have to run on-line, we will propose solutions to overcome the lack of information caused by this constraint. Results will be compared to speech recognition state of arts and to lips animation approach already existing.
La synchronisation labiale permet la mise en phase d'un son avec des mouvements de lèvres. Les applications vont de l'animation de personnages virtuels au playback, en passant par le doublage. Malgré ces utilisations courantes et naturelles dans l'industrie du spectacle, ce domaine reste un vrai défi scientifique. L'objet de ce rapport est de faire une première étude sur les capacités des réseaux de neurones à mettre en correspondance les caractéristiques audio et la position des lèvres en temps réel. Le but est de fournir un système plus réactif que le précédent, qui était basé sur des modèles de Markov cachés (HMM). Il s'attachera à reconnaître des unités acoustiques comme les phonèmes ou les visèmes. Les techniques de reconnaissance de la parole, généralement off-line, exploitent largement les informations contextuelles. Notre système devant fonctionner de façon on-line, nous proposerons des solutions pour palier à cette absence d'information. L'approche utilisée sera comparée à l'état de l'art de la reconnaissance de parole, et aux approches d'animation labiale existantes.
Fichier non déposé

Dates et versions

inria-00628856 , version 1 (04-10-2011)

Identifiants

  • HAL Id : inria-00628856 , version 1

Citer

Nathan Souviraà-Labastie. Prédiction du mouvement des lèvres à partir d'un signal de parole pour l'animation d'un avatar. Son [cs.SD]. 2011. ⟨inria-00628856⟩
165 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More