Modélisation de la coarticulation labiale: mise en œuvre sur une tête parlante

Vincent Robert

Résumé

This thesis comes within the scope of talking heads. We are particularly interested in the prediction of labial and jaw coarticulation movements. After analyzing intra and inter speaker variability using two corpora, we defined a prediction algorithm for anticipatory coarticulation based on phonetic rules which takes into account interactions between articulators. We then proposed a solution to estimate labial and jaw movements using a one speaker corpus. It consists in concatenating elementary VC...CV sequences selected by our prediction algorithm and either extracted from the corpus or rebuilt by completion. We modeled articularory movements using sigmoids which offer the advantage of considerably reducing the model size and which are adaptable to speaking rate or articulatory strategies. Additionally, sigmoids are able to keep distinctive contrasts between neighboring segments as well as intrinsic characteristics of the sounds. With the aim of estimating the quality of our synthesis process, we measured differences between real and predicted data for all the sentences of the corpus and we compared our solution with Cohen and Massaro's algorithm. It turns out that our solution is better for specific VCCV sequences in which anticipation is more complex.

Cette thèse s'inscrit dans une étude sur la modélisation d'une tête parlante destinée à améliorer l'intelligibilité du message transmis. A partir du signal sonore notre but est d'animer un visage synthétique afin par exemple de permettre la lecture labiale. Les mouvements des lèvres et de la mâchoire dépendent fortement du phénomène de coarticulation qui peut être anticipatif ou rétentif (progressif). Si beaucoup s'accordent à penser que rétentif est essentiellement inertiel, de nombreux modèle théoriques et expérimentaux rentrent en concurrence au sujet de l'anticipation. Afin d'essayer de clarifier ce phénomène, nous avons enregistré deux corpus audiovisuels (mono et multilocuteur) nous permettant d'obtenir des informations tridimensionnelles sur un ensemble de marqueurs peints sur le visage des locuteurs. Quatre paramètres articulatoires liés aux lèvres et à la mâchoire ont retenu notre attention. Après avoir analysé les variations intra et interlocuteur, nous avons défini un algorithme de prédiction de la coarticulatìon anticipatrice basé sur des règles phonétiques et prenant en considération l'interaction entre les articulateurs. Nous avons ensuite proposé une technique pour synthétiser les mouvements articulatoires à partir de l'algorithme de prédiction précédent. Notre solution permet d'estimer avec précision les mouvements des lèvres et de le mâchoire de n'importe quelle séquence en nous basant sur les informations contenues dans un corpus monolocuteur. Le principe de base est la concaténation de séquences élémentaires de type VC...CV qui sont soit extraites du corpus, soit obtenues par complétion. Une des originalités de notre méthode est le choix des sigmoïdes pour caractériser les mouvements articulatoires. Ceci a 1'avantage de réduire considérablement la taille du modèle construit et permet de s'adapter facilement à des vitesses d'é1ocution ou des stratégies articulatoires particulières. Un autre point fort de notre méthode est de prendre en considération à la fois l'effet paradigmatique qui correspond aux caractéristiques intrinsèques des sons, mais aussi l'effet syntagmatique qui permet de conserver les contrastes entre les sons dans un énoncé. Afin d'estimer la qualité de notre synthèse coarticulatoire, nous avons ensuite mesuré les différences entre les signaux réels et les signaux synthétisés sur 1'ensemble des phrases de notre corpus. Nous avons également comparé nos résultats avec ceux obtenus après synthèse avec la technique de prédiction de la coarticulatíon de Cohen et Massaro qui avait obtenu les meilleurs scores statistiques selon une ancienne étude comparative. Si la méthode de Cohen et Massaro obtient globalement de meilleurs résultats que notre solution, nous avons montré que ce n'est pas le cas pour toutes les séquences. En particulier, notre synthèse est meilleure pour les VCCV où l'anticipation est davantage marquée.

Modelling of labial coarticulation: implementation for a talking head

Modélisation de la coarticulation labiale: mise en œuvre sur une tête parlante

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager