Towards a 3 dimensional dynamic generic speaker model to study geometry simplifications of the vocal tract using magnetic resonance imaging data

Ioannis K Douros

Thèse Année : 2020

Towards a 3 dimensional dynamic generic speaker model to study geometry simplifications of the vocal tract using magnetic resonance imaging data

Vers un modèle dynamique et tridimensionnel d'un locuteur générique pour l'étude des simplifications géométriques du conduit vocal depuis des données d'imageries par résonance magnétiques

(1)

Ioannis K Douros

Fonction : Auteur
PersonId : 1049700

Speech Modeling for Facilitating Oral-Based Communication

Résumé

In this thesis we used MRI (Magnetic Resonance Imaging) data of the vocal tract to study speech production. The first part consist of the study of the impact that the velum, the epiglottis and the head position has on the phonation of five french vowels. Acoustic simulations were used to compare the formants of the studied cases with the reference in order to measure their impact. For this part of the work, we used 3D static MR (Magnetic Resonance) images. As speech is usually a dynamic phenomenon, a question arose, whether it would be possible to process the 3D data in order to incorporate dynamic information of continuous speech. Therefore the second part presents some algorithms that one can use in order to enhance speech production data. Several image transformations were combined in order to generate estimations of vocal tract shapes which are more informative than the original ones. At this point, we envisaged apart from enhancing speech production data, to create a generic speaker model that could provide enhanced information not for a specific subject, but globally for speech. As a result, we devoted the third part in the investigation of an algorithm that one can use to create a spatiotemporal atlas of the vocal tract which can be used as a reference or standard speaker for speech studies as it is speaker independent. Finally, the last part of the thesis, refers to a selection of open questions of the field that are still left unanswered, some interesting directions that one can expand this thesis and some potential approaches that could help someone move forward towards these directions.

Dans cette thèse, nous avons utilisé les données de l’IRM du conduit vocal pour étudier la production de la parole. La première partie consiste en l’étude de l’impact que le vélum, l’épiglotte et la position de la tête a sur la phonation de cinq voyelles françaises. Des simulations acoustiques ont été utilisées pour comparer les formants des cas étudiés avec la référence afin de mesurer leur impact. Pour cette partie du travail, nous avons utilisé des IRM statiques en 3D. Comme la parole est généralement une phénomène dynamique une question s’est posée, à savoir s’il serait possible de traiter les données 3D afin d’incorporer des informations temporelles de la parole continue. Par conséquent, la deuxième partie présente quelques algorithmes que l’on peut utiliser pour améliorer les données de production de la parole. Plusieurs transformations d’images ont été combinées afin de générer des estimations des formes du conduit vocal qui sont plus informatives que les originales. À ce stade, nous avons envisagé, outre l’amélioration des données de production de la parole, de créer un modèle de référence générique qui pourrait fournir des informations améliorées non pas pour un sujet spécifique, mais globalement pour la parole. C’est pourquoi nous avons consacré la troisième partie l’étude d’un algorithme permettant de créer un atlas spatio-temporel de l’appareil vocal qui peut être utilisé comme référence ou standard pour l’étude de la parole car il est indépendant du locuteur. Enfin, la dernière partie de la thèse, fait référence à une sélection de questions ouvertes du domaine qui restent encore sans réponse, quelques pistes intéressantes que l’on peut développer à partir de cette thèse et quelques approches potentielles qui pourraient être envisager afin de répondre à ces questions.

Mots clés

MRI Speech production Vocal tract Acoustic simulation Image transformation Articulatory data enhancement Spatio-temporal atlas

IRM Production de la parole Conduit vocal Simulation acoustique Transformation des images Amélioration des données articulatoires Atlas spatio-temporel

Domaines

Informatique et langage [cs.CL] Imagerie médicale Traitement du signal et de l'image [eess.SP]

Fichier principal

DDOC_T_2020_0115_DOUROS.pdf (18.8 Mo)

Thèses UL : Connectez-vous pour contacter le contributeur

https://hal.univ-lorraine.fr/tel-03008224

Soumis le : lundi 16 novembre 2020-16:47:22

Dernière modification le : lundi 11 septembre 2023-17:41:19

Archivage à long terme le : mercredi 17 février 2021-19:43:02

Dates et versions

tel-03008224 , version 1 (16-11-2020)

Identifiants

HAL Id : tel-03008224 , version 1

Citer

Ioannis K Douros. Towards a 3 dimensional dynamic generic speaker model to study geometry simplifications of the vocal tract using magnetic resonance imaging data. Computation and Language [cs.CL]. Université de Lorraine, 2020. English. ⟨NNT : 2020LORR0115⟩. ⟨tel-03008224⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS INRIA UNIV-LORRAINE INRIA2 LORIA LORIA-NLPKD THESES-UL

117 Consultations

715 Téléchargements

Towards a 3 dimensional dynamic generic speaker model to study geometry simplifications of the vocal tract using magnetic resonance imaging data

Vers un modèle dynamique et tridimensionnel d'un locuteur générique pour l'étude des simplifications géométriques du conduit vocal depuis des données d'imageries par résonance magnétiques

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager