Modélisation et reconnaissance active d'objets 3D de forme libre par vision en robotique

Felipe de Jesus Trujillo-Romero

Résumé

This document concerns service robotics for human assistance. A companion robot will have to manipulate everyday 3D objects (bottles, glasses...), recognized and localized from data acquired with sensors embedded on the robot, here using monocular or stereo vision. For vision-based object manipulation, it is necessary first to learn two representations for every object; a 3D geometrical model, mandatory to control the grasping task, and an appearance-based model, required for the visual recognition. This thesis deals first with the construction of these representations, and then proposes an active method for object recognition from images acquired from embedded cameras. The modeling is performed on a 3D object set alone on a table; 3D data are acquired from a stereo rig mounted on a manipulator; the sensor is moved by the arm around the object in order to acquire N images, from which a triangular mesh is built. It is proposed first an original approach for the registration of partial views, approach based on a pseudo-color created from the 3D points acquired on the object surface. Then an efficient method, based on a spherical parametrization, is proposed to make simpler the construction of a triangular mesh from the registered views aggregated in a 3D points cloud. The active recognition method is based on a single camera. The learning of the appearance-based model is also built, moving the camera around every object set alone on a table. This model is made of several views: for everyone, (1) the object silhouette is first extracted using a snake, (2) then, several descriptors are computed, either global (color, silhouette signature, shape context computed on all the object region) or local ones (interest points, color or shape contexts in discretized regions). The recognition process analyzes a scene with a single object, or with several ones set without order, including unknown objects. An incremental active method allows to update a probability vector P(Obji), i=1, N+1 if N objects have been learnt; the unknown objects are assigned to the class N+1; P(Obji) gives the probability that an object from the class i is in the scene. After every step, the best view point is selected for the next sensor position, using the maximization of the mutual information. The method has been validated from numerous results from synthetic or true images.

Cette thèse concerne la robotique au service de l'Homme. Un robot compagnon de l'Homme devra manipuler des objets 3D courants (bouteille, verre...), reconnus et localisés à partir de données acquises depuis des capteurs embarqués sur le robot. Nous exploitons la Vision, monoculaire ou stéréo. Pour traiter de la manipulation à partir de données visuelles, il faut au préalable construire deux représentations pour chaque objet : un modèle géométrique 3D, indispensable pour contrôler la saisie, et un modèle d'apparence visuelle, nécessaire pour la reconnaissance. Cette thèse traite donc de l'apprentissage de ces représentations, puis propose une approche active de reconnaissance d'objets depuis des images acquises par les caméras embarquées. La modélisation est traitée sur un objet 3D isolé posé sur une table, ; nous exploitons des données 3D acquises depuis un capteur stéréo monté sur un bras manipulateur; le capteur est déplacé par le bras autour de l'objet pour acquérir N images, exploitées pour construire un modèle de type maillage triangulaire. Nous proposons d'abord une approche originale de recalage des vues partielles de l'objet, fondée sur des informations de pseudo-couleur générées à partir des points 3D acquis sur l'objet à apprendre ; puis une méthode simple et rapide, fondée sur la paramétrisation sphérique, est proposée pour construire un maillage triangulaire à partir des vues recalées fusionnées dans un nuage de points 3D. Pour la reconnaissance active, nous exploitons une simple caméra. L'apprentissage du modèle d'apparence pour chaque objet, se fait aussi en déplaçant ce capteur autour de l'objet isolé posé sur une table. Ce modèle est donc fait de plusieurs vues ; dans chacune, (1) la silhouette de l'objet est extraite par un contour actif, puis (2) plusieurs descripteurs sont extraits, globaux (couleur, signature de la silhouette, shape context calculés) ou locaux (points d'intérêt, couleur ou shape context dans des régions). Pendant la reconnaissance, la scène peut contenir un objet isolé, ou plusieurs en vrac, avec éventuellement des objets non appris ; nous proposons une approche active, approche incrémentale qui met à jour un ensemble de probabilités P(Obji), i=1 à N+1 si N objets ont été appris ; les objets inconnus sont affectés à la classe N+1 ; P(Obji) donne la probabilité qu'un objet de la classe i soit présent dans la scène. A chaque étape la meilleure position du capteur est sélectionnée en exploitant la maximisation de l'information mutuelle. De nombreux résultats en images de synthèse ou en images réelles ont permis de valider cette approche.

3D modelling and active recognition of free-form objects from vision in robotics

Modélisation et reconnaissance active d'objets 3D de forme libre par vision en robotique

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager