Acquisition et modélisation de données articulatoires dans un contexte multimodal

Michael Aron

Thèse Année : 2009

Acquisition et modélisation de données articulatoires dans un contexte multimodal

Acquiring and modelling multimodal articulatory data

(1)

Michael Aron

Fonction : Auteur
PersonId : 7501
IdHAL : michael-aron
ORCID : 0000-0002-6460-8715
IdRef : 139502254

Visual Augmentation of Complex Environments

Résumé

There is no single technique that will allow all relevant behaviour of the speech articulators (lips, tongue, palate...) to be spatially ant temporally acquired. Thus, this thesis investigates the fusion of multimodal articulatory data. A framework is described in order to acquire and fuse automatically an important database of articulatory data. This includes: 2D Ultrasound (US) data to recover the dynamic of the tongue, stereovision data to recover the 3D dynamic of the lips, electromagnetic sensors that provide 3D position of points on the face and the tongue, and 3D Magnetic Resonance Imaging (MRI) that depict the vocal tract for various sustained articulations. We investigate the problems of the temporal synchronization and the spatial registration between all these modalities, and also the extraction of the shape articulators from the data (tongue tracking in US images). We evaluate the uncertainty of our system by quantifying the spatial and temporal inacuracies of the components of the system, both individually and in combination. Finally, the fused data are evaluated on an existing articulatory model to assess their quality for an application in speech production.

La connaissance des positions et des mouvements des articulateurs (lèvres, palais, langue...) du conduit vocal lors de la phonation est un enjeu crucial pour l'étude de la parole. Puisqu'il n'existe pas encore de système permettant l'acquisition de ces positions et de ces mouvements, ce travail de thèse s'intéresse à la fusion de plusieurs modalités d'imagerie et de capteurs de localisation pour l'acquisition des positions des articulateurs dans l'espace et dans le temps. Nous décrivons un ensemble de protocoles et de méthodes pour obtenir et fusionner automatiquement un important volume de données échographiques (imageant en 2D la dynamique de la langue), stéréoscopiques (imageant en 3D la dynamique des lèvres), de capteurs électromagnétiques (capturant des points 3D de la langue et du visage), et d'Imagerie par Résonance Magnétique (IRM) pour acquérir en 3D l'ensemble des articulateurs en position statique. Nos contributions concernent plus particulièrement la synchronisation temporelle, le recalage spatial des données et l'extraction automatique des formes à partir des données (suivi de la langue dans les images échographiques). Nous évaluons la précision sur chaque donnée extraite, ainsi que sur l'ensemble des données fusionnées. Nous les validons enfin sur un modèle articulatoire existant. Ces travaux permettent l'obtention de données bien fondées pour la mise en place et l'étude de modèles articulatoires pour des applications en parole.

Mots clés

acquisition and fusion of multimodal articulatory data ultrasound images electromagnetic sensors MRI synchronization spatial registration tongue tracking calibration for freehand 3-D ultrasound system articulatory data validation registration uncertainty

données articulatoires acquisition multimodale fusion multimodale échographies capteurs électromagnétiques IRM synchronisation suivi de la langue calibrage échographie mains libres recalage multimodal validation de données articulatoires incertitude de recalage

Domaines

Interface homme-machine [cs.HC]

Fichier principal

these.pdf (17.59 Mo)

Michael Aron : Connectez-vous pour contacter le contributeur

https://theses.hal.science/tel-00432124

Soumis le : mercredi 18 novembre 2009-15:07:05

Dernière modification le : vendredi 24 mars 2023-14:52:52

Archivage à long terme le : samedi 26 novembre 2016-15:52:13

Dates et versions

tel-00432124 , version 1 (13-11-2009)

tel-00432124 , version 2 (18-11-2009)

Identifiants

HAL Id : tel-00432124 , version 2

Citer

Michael Aron. Acquisition et modélisation de données articulatoires dans un contexte multimodal. Interface homme-machine [cs.HC]. Université Henri Poincaré - Nancy I, 2009. Français. ⟨NNT : ⟩. ⟨tel-00432124v2⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS INRIA UNIV-LORRAINE INRIA2 LORIA THESES-UL

270 Consultations

1419 Téléchargements

Acquisition et modélisation de données articulatoires dans un contexte multimodal

Acquiring and modelling multimodal articulatory data

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager