Person analysis in stereoscopic movies
Analyse des personnes dans les films stéréoscopiques
Résumé
People are at the center of many computer vision tasks, such as surveillance
systems or self-driving cars. They are also at the center of most visual contents,
potentially providing very large datasets for training models and algorithms.
While stereoscopic data has been studied for long, it is only recently
that feature-length stereoscopic ("3D") movies became widely available.
In this thesis, we study how we can exploit the additional information
provided by 3D movies for person analysis. We first explore how to extract
a notion of depth from stereo movies in the form of disparity maps. We then
evaluate how person detection and human pose estimation methods perform
on such data. Leveraging the relative ease of the person detection task in 3D
movies, we develop a method to automatically harvest examples of persons
in 3D movies and train a person detector for standard color movies.
We then focus on the task of segmenting multiple people in videos. We
first propose a method to segment multiple people in 3D videos by combining
cues derived from pose estimates with ones derived from disparity maps. We
formulate the segmentation problem as a multi-label Conditional Random
Field problem, and our method integrates an occlusion model to produce
a layered, multi-instance segmentation. After showing the effectiveness of
this approach as well as its limitations, we propose a second model which
only relies on tracks of person detections and not on pose estimates. We
formulate our problem as a convex optimization one, with the minimization
of a quadratic cost under linear equality or inequality constraints. These
constraints weakly encode the localization information provided by person
detections. This method does not explicitly require pose estimates or disparity
maps but can integrate these additional cues. Our method can also
be used for segmenting instances of other object classes from videos. We
evaluate all these aspects and demonstrate the superior performance of this
new method.
Les humains sont au coeur de nombreux problèmes de vision par ordinateur,
tels que les systèmes de surveillance ou les voitures sans pilote.
Ils sont également au centre de la plupart des contenus visuels, pouvant
amener à des jeux de données très larges pour l’entraînement de modèles
et d’algorithmes. Par ailleurs, si les données stéréoscopiques font l’objet
d’études depuis longtemps, ce n’est que récemment que les films 3D sont
devenus un succès commercial.
Dans cette thèse, nous étudions comment exploiter les données additionnelles
issues des films 3D pour les tâches d’analyse des personnes. Nous
explorons tout d’abord comment extraire une notion de profondeur à partir
des films stéréoscopiques, sous la forme de cartes de disparité. Nous
évaluons ensuite à quel point les méthodes de détection de personne et
d’estimation de posture peuvent bénéficier de ces informations supplémentaires.
En s’appuyant sur la relative facilité de la tâche de détection de
personne dans les films 3D, nous développons une méthode pour collecter automatiquement
des exemples de personnes dans les films 3D afin d’entraîner
un détecteur de personne pour les films non 3D.
Nous nous concentrons ensuite sur la segmentation de plusieurs personnes
dans les vidéos. Nous proposons tout d’abord une méthode pour
segmenter plusieurs personnes dans les films 3D en combinant des informations
dérivées des cartes de profondeur avec des informations dérivées
d’estimations de posture. Nous formulons ce problème comme un problème
d’étiquetage de graphe multi-étiquettes, et notre méthode intègre un
modèle des occlusions pour produire une segmentation multi-instance par
plan. Après avoir montré l’efficacité et les limitations de cette méthode,
nous proposons un second modèle, qui ne repose lui que sur des détections
de personne à travers la vidéo, et pas sur des estimations de posture. Nous
formulons ce problème comme la minimisation d’un coût quadratique sous
contraintes linéaires. Ces contraintes encodent les informations de localisation
fournies par les détections de personne. Cette méthode ne nécessite pas
d’information de posture ou des cartes de disparité, mais peut facilement
intégrer ces signaux supplémentaires. Elle peut également être utilisée pour
d’autres classes d’objets. Nous évaluons tous ces aspects et démontrons la
performance de cette nouvelle méthode.
Loading...