Estimation algorithms for ambiguous visual models : Three Dimensional Human Modeling and Motion Reconstruction in Monocular Video Sequences

Cristian Sminchisescu

Résumé

This thesis studies the problem of tracking and reconstructing three-dimensional articulated human motion in monocular video sequences. This is an important problem with applications in areas like markerless motion capture for animation and virtual reality, video indexing, human-computer interaction or intelligent surveillance. A system that aims to reconstruct 3D human motion using single camera sequences faces difficulties caused by the lossy nature of monocular projection and the high-dimensionality required for 3D human modeling. The complexities of human articular structure, shape and their physical constraints, and the large variability in image observations involving humans, render the solution non-trivial. We focus on the general problem of 3D human motion estimation using monocular video streams. Hence, we can not exploit the simplifications brought by using multiple cameras or strong dynamical models such as walking, and we minimize assumptions about clothing and background structure. In this unrestricted setting, the posterior likelihoods over human pose space are inevitably highly multi-modal, and efficiently locating and tracking the most prominent peaks is a major computational challenge. To address these problems, we propose a model that incorporates realistic kinematics and several important human body constraints, and a principled, robust and probabilistically motivated integration of different visual cues like contours, intensity or silhouettes. We then derive three novel continuous multiple-hypothesis search techniques that allow either deterministic or stochastic localization of nearby peaks in the high-dimensional human pose likelihood surface: Covariance Scaled Sampling, Eigenvector Tracking and Hypersurface Sweeping and Hyperdynamic Importance Sampling. The search methods give general, principled approaches to the deterministic exploration of the non-convex error surfaces so often encountered in computational vision problems. The combined system allows monocular tracking of unconstrained human motions in clutter."

Cette thèse s'intéresse au problème du suivi et de la reconstruction tridimensionnelle de mouvements articulés humains dans des séquences vidéo monoculaires. Cette problématique est importante et comporte un champ d'applications assez large qui touche des domaines tels que la capture du mouvement sans cibles pour l'animation et la réalité virtuelle, l'indexation vidéo, les interactions homme-machines ou la télésurveillance. La reconstruction de mouvement 3D humain à partir de séquences monoculaires est un problème complexe en raison de la perte d'informations due à la projection monoculaire, et en raison de la dimensionnalité importante nécessaire à la modélisation du corps humain. En effet, la complexité de la structure articulaire et volumétrique du corps humain, ses contraintes physiques, ainsi que la grande variabilité dans les observations images, rendent la recherche d'une solution à ce problème difficile. L'objectif principal de cette thèse est donc d'étudier dans quelle mesure l'estimation de mouvement générique humain est réalisable à partir d' une seule caméra. Par conséquent, nous ne faisons pas d'hypothèses sur le mouvement ou l'habillement du sujet suivi, sur la structure du fond, ou sur la présence de plusieurs caméras. Cette formulation non-restrictive résulte en une distribution de probabilité dynamique et fortement multimodale dans l'espace des configurations (les poses). Le défi majeur réside ici dans la localisation temporelle effective des modes les plus importants de cette distribution. Pour aborder cette étude, nous proposons un cadre de modélisation qui tient compte des contraintes physiques du corps humain et qui permet une intégration cohérente, robuste et statistiquement justifiée des différentes informations visuelles comme les contours, les intensités ou les silhouettes. Dans ce cadre, nous décrivons trois nouvelles méthodes de recherche continues reposant sur des hypothèses multiples qui nous permettent à la fois une localisation déterministe et un échantillonage stochastique des modes multiples sur les surfaces de probabilité associées aux poses du corps humain: Covariance Scaled Sampling, Eigenvector Tracking et Hypersurface Sweeping et Hyperdynamic Importance Sampling. Ces méthodes nous permettent a la fois un suivi et une reconstruction efficace du mouvement humain dans des contextes naturels, ainsi qu'une étude systématique et déterministe des surfaces d'erreurs multimodales souvent rencontrées dans des problèmes de vision par ordinateur.

Estimation algorithms for ambiguous visual models : Three Dimensional Human Modeling and Motion Reconstruction in Monocular Video Sequences

Algorithmes d'estimation pour des modèles visuels ambigus : Modélisation Humaine Tridimensionnelle et Reconstruction du Mouvement dans des Séquences Vidéo Monoculaires

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager