Un modèle d'attention visuelle dynamique pour conditions 2D et 3D ; codage de cartes de profondeur et synthèse basée inpainting pour les vidéos multi-vues - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Thèse Année : 2012

A Dynamic Visual Attention Model for 2D and 3D conditions; Depth Coding and Inpainting-based Synthesis for Multiview Videos

Un modèle d'attention visuelle dynamique pour conditions 2D et 3D ; codage de cartes de profondeur et synthèse basée inpainting pour les vidéos multi-vues

Résumé

This thesis comes within the scope of the emerging 3D systems and their issues of multi-view-plus-depth coding, virtual view synthesis and human perception. The 3D stereoscopic perception is tackled through the proposal of a dynamic visual attention model, an efficient depth map coding method and a new rendering algorithm for viewpoint generation by extrapolation. The first part of this thesis focuses on the implications of the binocular disparity on the deployment of visual attention. After a statistical analysis of the role of potential center and depth biases in monoscopic and stereoscopic conditions, a new saliency model combining low and high level visual features is proposed. This dynamic saliency model integrates the hypothetical depth mechanism of figure/ground processing using depth foreground/background segregation. Tested performance proves the validity of the approach and confirms the relevance of a fusion of features whose weighting depends on time. The second part proposed two contributions in the scope of high quality 3D contents. A new depth map compression method based on lossless edge transmission provides a simple and reliable scene geometry for accurate viewpoint synthesis. This method is assessed thanks to objective quality metrics and subjective experiments. Finally a method of directional inpainting is presented. It is dedicated to extrapolation of new viewpoints for both 3DTV and FTV. The background structure is first propagated inside disoccluded areas. The robust tensor-based isophotes and the directional filling enable an efficient synthesis of virtual views. This provides promising visual results even for distant generated viewpoints.
Cette thèse a pour objet les systèmes 3D émergents et leurs problématiques de codage multi-vues-plus-profondeur, de synthèse de vues virtuelles et de perception stéréoscopique. Des solutions sont proposées au travers d'un codage de carte de profondeur efficace, d'une nouvelle méthode de synthèse par extrapolation et d'un modèle d'attention visuelle dynamique. Premièrement, le rôle de la disparité binoculaire dans le déploiement de l'attention visuelle est étudié. Suite à une analyse statistique de biais potentiels de centre et de profondeur en condition mono et stéréoscopique, un nouveau modèle de saillance est proposé combinant des attributs bas et haut niveau, dont le mécanisme visuel de séparation fond/forme. Les performances confirment la validité de l'approche et la pertinence d'une combinaison d'attributs visuels pondérés au cours du temps. En outre une nouvelle méthode de compression de carte de profondeur est présentée ; celle-ci se base sur la transmission sans perte des contours et permet une reconstruction fiable de la géométrie de la scène pour des synthèses de vues précises. Cette méthode est évaluée par des métriques de qualité objectives ainsi que par des tests subjectifs. Enfin une nouvelle méthode d'inpainting directionnelle est présentée pour l'extrapolation de nouveaux points de vues à la fois pour la 3DTV et la FTV. La structure située à l'arrière-plan est propagée en priorité dans les zones découvertes. Le calcul d'isophotes, robuste car basée tenseur, ainsi que le remplissage directionnel assurent une synthèse de vue plausible. Ces résultats sont visuellement prometteurs que ce soit à faible ou large écart de la vue d'origine.
Fichier principal
Vignette du fichier
thesis_Gautier_2012_opt.pdf (6.68 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00758112 , version 1 (17-12-2012)
tel-00758112 , version 2 (10-02-2013)

Identifiants

  • HAL Id : tel-00758112 , version 2

Citer

Josselin Gautier. Un modèle d'attention visuelle dynamique pour conditions 2D et 3D ; codage de cartes de profondeur et synthèse basée inpainting pour les vidéos multi-vues. Informatique. Université Rennes 1, 2012. Français. ⟨NNT : ⟩. ⟨tel-00758112v2⟩
636 Consultations
526 Téléchargements

Partager

Gmail Facebook X LinkedIn More