Prédiction du mouvement des lèvres à partir d'un signal de parole pour l'animation d'un avatar

Nathan Souviraà-Labastie

Mémoire D'étudiant Année : 2011

Prédiction du mouvement des lèvres à partir d'un signal de parole pour l'animation d'un avatar

(1)

Nathan Souviraà-Labastie

Fonction : Auteur
PersonId : 907835

Speech and sound data modeling and processing

Résumé

Lip sync correspond to all the techniques that synchronize sounds and lips movement. It is used in several applications like virtual characters animation, playback, or dubbing. In spite of this simple and natural utilization in show business, this field remains a great challenge for scientist. The purpose of this report is to show abilities of artificial neural networks to match up audio features with lips position in real time. The aim is to provide a system more responsive than the former one based on Hidden Markov Models (HMM). It will recognize acoustic units such as phonemes or visemes. Speech recognition technics, generally off-line, use many contextual information. In our case the system will have to run on-line, we will propose solutions to overcome the lack of information caused by this constraint. Results will be compared to speech recognition state of arts and to lips animation approach already existing.

La synchronisation labiale permet la mise en phase d'un son avec des mouvements de lèvres. Les applications vont de l'animation de personnages virtuels au playback, en passant par le doublage. Malgré ces utilisations courantes et naturelles dans l'industrie du spectacle, ce domaine reste un vrai défi scientifique. L'objet de ce rapport est de faire une première étude sur les capacités des réseaux de neurones à mettre en correspondance les caractéristiques audio et la position des lèvres en temps réel. Le but est de fournir un système plus réactif que le précédent, qui était basé sur des modèles de Markov cachés (HMM). Il s'attachera à reconnaître des unités acoustiques comme les phonèmes ou les visèmes. Les techniques de reconnaissance de la parole, généralement off-line, exploitent largement les informations contextuelles. Notre système devant fonctionner de façon on-line, nous proposerons des solutions pour palier à cette absence d'information. L'approche utilisée sera comparée à l'état de l'art de la reconnaissance de parole, et aux approches d'animation labiale existantes.

Domaines

Son [cs.SD] Réseau de neurones [cs.NE] Traitement du signal et de l'image [eess.SP] Traitement du signal et de l'image [eess.SP]

Nathan Souviraà-Labastie : Connectez-vous pour contacter le contributeur

https://inria.hal.science/inria-00628856

Soumis le : mardi 4 octobre 2011-13:25:45

Dernière modification le : vendredi 24 mars 2023-14:52:54

Dates et versions

inria-00628856 , version 1 (04-10-2011)

Identifiants

HAL Id : inria-00628856 , version 1

Citer

Nathan Souviraà-Labastie. Prédiction du mouvement des lèvres à partir d'un signal de parole pour l'animation d'un avatar. Son [cs.SD]. 2011. ⟨inria-00628856⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

EC-PARIS CNRS INRIA INSA-RENNES IRISA IRISA-D5 INRIA2 UR1-MATH-STIC UR1-UFR-ISTIC UNIV-RENNES INSA-GROUPE UR1-MATH-NUM

165 Consultations

0 Téléchargements

Prédiction du mouvement des lèvres à partir d'un signal de parole pour l'animation d'un avatar

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager