Représentations à base de parties pour la vision 3D de haut niveau

Stefan Kinauer

Résumé

In this work we use Deformable Part Models (DPMs) to learn and detect object parts in 3 dimensions. Given a single RGB image of an object, the objective is to determine the location of the object’s parts. The resulting optimization problem is non-convex and challenging due to its large solution space.Our first contribution consists in extending DPMs into the third dimension through an efficient Branch-and-Bound algorithm. We devise a customized algorithm that is two orders of magnitude faster than a naive approach and guarantees global-optimality. We derive the model’s 3-dimensional geometry from one 3-dimensional structure, but train viewpoint-specific part appearance terms based on deep learning features. We demonstrate our approach on the task of 3D object pose estimation, determining the object pose within a fraction of a second.Our second contribution allows us to perform efficient inference with part-based models where the part connections form a graph with loops, thereby allowing for richer models. For this, we use the Alternating Direction Method of Multipliers (ADMM) to decouple the problem and solve iteratively a set of easier sub-problems. We compute 3-dimensional model parameters in a Convolutional Neural Network for 3D human pose estimation. Then we append the developed inference algorithm as final layer to this neural network. This yields state of the art performance in the 3D human pose estimation task.

Dans cette thèse, nous utilisons des modèles de parties déformables (Deformable Part Models – DPMs) pour apprendre à détecter des parties d’objets. Pour une image d’un objet, l’objectif est de déterminer l’emplacement des parties de cet objet dans l’image. Le problème d’optimisation qui en résulte est non-convexe et difficile en raison de son grand espace de recherche.Notre première contribution consiste à étendre les DPMs à la troisième dimension, grâce à un algorithme par séparation et évaluation (Branchand- Bound). Nous élaborons un algorithme personnalisé qui est deux fois plus rapide qu’une approche naïve et garantit l’optimalité globale. Nous dérivons pour le modèle 3-dimensionnel une structure 3-dimensionnel. Cependant, nous entrainons un algorithme prenant en compte chaque sous point de vue de l’apparence. Nous démontrons notre approche sur la tache de l’estimation 3-dimensionnel de la posture, en déterminant la posture de l’objet dans une fraction de second.Notre deuxième contribution nous permet d’effectuer une inférence efficace sur des modèles où les connexions des parties forment un graphe avec des boucles, étendant ainsi des modèles plus riches. Pour cela, nous utilisons l’algorithme des directions alternées (Alternating Direction Method of Multipliers – ADMM) pour découpler le problème et résoudre itérativement un ensemble de sous-problèmes plus faciles. Nous calculons les paramètres du modèle via un Réseaux Neuronal Convolutif pour la détermination de la posture 3-dimensionnel. L’inférence développée est utilisée comme dernière couche du réseau neural. Cela permet d’obtenir une performance à l’état de l’art pour la tâche d’estimation de pose humaine en 3D.

Part-Based Representations for High-Level 3D Vision

Représentations à base de parties pour la vision 3D de haut niveau

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager