Towards a 3 dimensional dynamic generic speaker model to study geometry simplifications of the vocal tract using magnetic resonance imaging data - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Thèse Année : 2020

Towards a 3 dimensional dynamic generic speaker model to study geometry simplifications of the vocal tract using magnetic resonance imaging data

Vers un modèle dynamique et tridimensionnel d'un locuteur générique pour l'étude des simplifications géométriques du conduit vocal depuis des données d'imageries par résonance magnétiques

Résumé

In this thesis we used MRI (Magnetic Resonance Imaging) data of the vocal tract to study speech production. The first part consist of the study of the impact that the velum, the epiglottis and the head position has on the phonation of five french vowels. Acoustic simulations were used to compare the formants of the studied cases with the reference in order to measure their impact. For this part of the work, we used 3D static MR (Magnetic Resonance) images. As speech is usually a dynamic phenomenon, a question arose, whether it would be possible to process the 3D data in order to incorporate dynamic information of continuous speech. Therefore the second part presents some algorithms that one can use in order to enhance speech production data. Several image transformations were combined in order to generate estimations of vocal tract shapes which are more informative than the original ones. At this point, we envisaged apart from enhancing speech production data, to create a generic speaker model that could provide enhanced information not for a specific subject, but globally for speech. As a result, we devoted the third part in the investigation of an algorithm that one can use to create a spatiotemporal atlas of the vocal tract which can be used as a reference or standard speaker for speech studies as it is speaker independent. Finally, the last part of the thesis, refers to a selection of open questions of the field that are still left unanswered, some interesting directions that one can expand this thesis and some potential approaches that could help someone move forward towards these directions.
Dans cette thèse, nous avons utilisé les données de l’IRM du conduit vocal pour étudier la production de la parole. La première partie consiste en l’étude de l’impact que le vélum, l’épiglotte et la position de la tête a sur la phonation de cinq voyelles françaises. Des simulations acoustiques ont été utilisées pour comparer les formants des cas étudiés avec la référence afin de mesurer leur impact. Pour cette partie du travail, nous avons utilisé des IRM statiques en 3D. Comme la parole est généralement une phénomène dynamique une question s’est posée, à savoir s’il serait possible de traiter les données 3D afin d’incorporer des informations temporelles de la parole continue. Par conséquent, la deuxième partie présente quelques algorithmes que l’on peut utiliser pour améliorer les données de production de la parole. Plusieurs transformations d’images ont été combinées afin de générer des estimations des formes du conduit vocal qui sont plus informatives que les originales. À ce stade, nous avons envisagé, outre l’amélioration des données de production de la parole, de créer un modèle de référence générique qui pourrait fournir des informations améliorées non pas pour un sujet spécifique, mais globalement pour la parole. C’est pourquoi nous avons consacré la troisième partie l’étude d’un algorithme permettant de créer un atlas spatio-temporel de l’appareil vocal qui peut être utilisé comme référence ou standard pour l’étude de la parole car il est indépendant du locuteur. Enfin, la dernière partie de la thèse, fait référence à une sélection de questions ouvertes du domaine qui restent encore sans réponse, quelques pistes intéressantes que l’on peut développer à partir de cette thèse et quelques approches potentielles qui pourraient être envisager afin de répondre à ces questions.
Fichier principal
Vignette du fichier
DDOC_T_2020_0115_DOUROS.pdf (18.8 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-03008224 , version 1 (16-11-2020)

Identifiants

  • HAL Id : tel-03008224 , version 1

Citer

Ioannis K Douros. Towards a 3 dimensional dynamic generic speaker model to study geometry simplifications of the vocal tract using magnetic resonance imaging data. Computation and Language [cs.CL]. Université de Lorraine, 2020. English. ⟨NNT : 2020LORR0115⟩. ⟨tel-03008224⟩
117 Consultations
715 Téléchargements

Partager

Gmail Facebook X LinkedIn More