Un modèle d'attention visuelle dynamique pour conditions 2D et 3D ; codage de cartes de profondeur et synthèse basée inpainting pour les vidéos multi-vues

Josselin Gautier

Thèse Année : 2012

A Dynamic Visual Attention Model for 2D and 3D conditions; Depth Coding and Inpainting-based Synthesis for Multiview Videos

Un modèle d'attention visuelle dynamique pour conditions 2D et 3D ; codage de cartes de profondeur et synthèse basée inpainting pour les vidéos multi-vues

(1)

Josselin Gautier

Fonction : Auteur
PersonId : 15718
IdHAL : josselin-gautier
ORCID : 0000-0001-5876-4001
IdRef : 166596310

Digital image processing, modeling and communication

Résumé

This thesis comes within the scope of the emerging 3D systems and their issues of multi-view-plus-depth coding, virtual view synthesis and human perception. The 3D stereoscopic perception is tackled through the proposal of a dynamic visual attention model, an efficient depth map coding method and a new rendering algorithm for viewpoint generation by extrapolation. The first part of this thesis focuses on the implications of the binocular disparity on the deployment of visual attention. After a statistical analysis of the role of potential center and depth biases in monoscopic and stereoscopic conditions, a new saliency model combining low and high level visual features is proposed. This dynamic saliency model integrates the hypothetical depth mechanism of figure/ground processing using depth foreground/background segregation. Tested performance proves the validity of the approach and confirms the relevance of a fusion of features whose weighting depends on time. The second part proposed two contributions in the scope of high quality 3D contents. A new depth map compression method based on lossless edge transmission provides a simple and reliable scene geometry for accurate viewpoint synthesis. This method is assessed thanks to objective quality metrics and subjective experiments. Finally a method of directional inpainting is presented. It is dedicated to extrapolation of new viewpoints for both 3DTV and FTV. The background structure is first propagated inside disoccluded areas. The robust tensor-based isophotes and the directional filling enable an efficient synthesis of virtual views. This provides promising visual results even for distant generated viewpoints.

Cette thèse a pour objet les systèmes 3D émergents et leurs problématiques de codage multi-vues-plus-profondeur, de synthèse de vues virtuelles et de perception stéréoscopique. Des solutions sont proposées au travers d'un codage de carte de profondeur efficace, d'une nouvelle méthode de synthèse par extrapolation et d'un modèle d'attention visuelle dynamique. Premièrement, le rôle de la disparité binoculaire dans le déploiement de l'attention visuelle est étudié. Suite à une analyse statistique de biais potentiels de centre et de profondeur en condition mono et stéréoscopique, un nouveau modèle de saillance est proposé combinant des attributs bas et haut niveau, dont le mécanisme visuel de séparation fond/forme. Les performances confirment la validité de l'approche et la pertinence d'une combinaison d'attributs visuels pondérés au cours du temps. En outre une nouvelle méthode de compression de carte de profondeur est présentée ; celle-ci se base sur la transmission sans perte des contours et permet une reconstruction fiable de la géométrie de la scène pour des synthèses de vues précises. Cette méthode est évaluée par des métriques de qualité objectives ainsi que par des tests subjectifs. Enfin une nouvelle méthode d'inpainting directionnelle est présentée pour l'extrapolation de nouveaux points de vues à la fois pour la 3DTV et la FTV. La structure située à l'arrière-plan est propagée en priorité dans les zones découvertes. Le calcul d'isophotes, robuste car basée tenseur, ainsi que le remplissage directionnel assurent une synthèse de vue plausible. Ces résultats sont visuellement prometteurs que ce soit à faible ou large écart de la vue d'origine.

Mots clés

Binocular vision 3DTV Depth perception 3D images image compression visual perception view synthesis

Vision Vision binoculaire Télévision en relief Perception de la profondeur Imagerie tridimensionnelle Compression d'images Perception visuelle Projection (géométrie)

Domaines

Informatique Traitement du signal et de l'image [eess.SP] Traitement du signal et de l'image [eess.SP]

Fichier principal

thesis_Gautier_2012_opt.pdf (6.68 Mo)

Josselin Gautier : Connectez-vous pour contacter le contributeur

https://theses.hal.science/tel-00758112

Soumis le : dimanche 10 février 2013-20:23:45

Dernière modification le : vendredi 24 mars 2023-14:52:56

Dates et versions

tel-00758112 , version 1 (17-12-2012)

tel-00758112 , version 2 (10-02-2013)

Identifiants

HAL Id : tel-00758112 , version 2

Citer

Josselin Gautier. Un modèle d'attention visuelle dynamique pour conditions 2D et 3D ; codage de cartes de profondeur et synthèse basée inpainting pour les vidéos multi-vues. Informatique. Université Rennes 1, 2012. Français. ⟨NNT : ⟩. ⟨tel-00758112v2⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

EC-PARIS UNIV-RENNES1 CNRS INRIA INSA-RENNES IRISA IRISA-D5 INRIA2 UR1-THESES UR1-MATH-STIC UR1-UFR-ISTIC UNIV-RENNES INSA-GROUPE UR1-MATH-NUM RISC_THESE_HDR

636 Consultations

526 Téléchargements

A Dynamic Visual Attention Model for 2D and 3D conditions; Depth Coding and Inpainting-based Synthesis for Multiview Videos

Un modèle d'attention visuelle dynamique pour conditions 2D et 3D ; codage de cartes de profondeur et synthèse basée inpainting pour les vidéos multi-vues

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager