Conjugate Mixture Models for the Modeling of Visual and Auditory Perception

Vasil Khalidov

Thèse Année : 2010

Conjugate Mixture Models for the Modeling of Visual and Auditory Perception

Modèles de Mélanges Conjugués pour la Modélisation de la Perception Visuelle et Auditive

(1)

Vasil Khalidov

Fonction : Auteur

Modelling and Inference of Complex and Structured Stochastic Systems

Résumé

In this thesis, the modelling of audio-visual perception with a head-like device is considered. The related problems, namely audio-visual calibration, audio-visual object detection, localization and tracking are addressed. A spatio-temporal approach to the head-like device calibration is proposed based on probabilistic multimodal trajectory matching. The formalism of conjugate mixture models is introduced along with a family of efficient optimization algorithms to perform multimodal clustering. One instance of this algorithm family, namely the conjugate expectation maximization (ConjEM) algorithm is further improved to gain attractive theoretical properties. The multimodal object detection and object number estimation methods are developed, their theoretical properties are discussed. Finally, the proposed multimodal clustering method is combined with the object detection and object number estimation strategies and known tracking techniques to perform multimodal multiobject tracking. The performance is demonstrated on simulated data and the database of realistic audio-visual scenarios (CAVA database).

Dans cette thèse, nous nous intéressons à la modélisation de la perception audio-visuelle avec une tête robotique. Les problèmes associés, notamment la calibration audio-visuelle, la détection, la localisation et le suivi d'objets audio-visuels sont étudiés. Une approche spatio-temporelle de calibration d'une tête robotique est proposée, basée sur une mise en correspondance probabiliste multimodale des trajectoires. Le formalisme de modèles de mélange conjugué est introduit ainsi qu'une famille d'algorithmes d'optimisation efficaces pour effectuer le regroupement multimodal. Un cas particulier de cette famille d'algorithmes, notamment l'algorithme EM conjugue, est amélioré pour obtenir des propriétés théoriques intéressantes. Des méthodes de détection d'objets multimodaux et d'estimation du nombre d'objets sont développées et leurs propriétés théoriques sont étudiées. Enﬁn, la méthode de regroupement multimodal proposée est combinée avec des stratégies de détection et d'estimation du nombre d'objets ainsi qu'avec des techniques de suivi pour effectuer le suivi multimodal de plusieurs objets. La performance des méthodes est démontrée sur des données simulées et réelles issues d'une base de données de scénarios audio-visuels réalistes (base de données CAVA).

Mots clés

conjugate mixture models audio-visual scene analysis audio-visual calibration multimodal object detection multimodal object tracking

modeles de mélanges conjugués analyse audio-visuel de scène calibration audio-visuelle détection multimodale d'objets suivi multimodal d'objets

Domaines

Interface homme-machine [cs.HC]

Fichier principal

Khalidov_Thesis.pdf (8.99 Mo)

Perception team : Connectez-vous pour contacter le contributeur

https://theses.hal.science/tel-00584080

Soumis le : mercredi 12 décembre 2012-16:34:10

Dernière modification le : jeudi 4 avril 2024-20:57:37

Archivage à long terme le : mercredi 13 mars 2013-03:54:17

Dates et versions

tel-00584080 , version 1 (07-04-2011)

tel-00584080 , version 2 (12-12-2012)

Identifiants

HAL Id : tel-00584080 , version 2

Citer

Vasil Khalidov. Conjugate Mixture Models for the Modeling of Visual and Auditory Perception. Human-Computer Interaction [cs.HC]. Université Joseph-Fourier - Grenoble I, 2010. English. ⟨NNT : ⟩. ⟨tel-00584080v2⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UGA CNRS INRIA LJK LJK_PS LJK_PS_MISTIS INRIA2

296 Consultations

512 Téléchargements

Conjugate Mixture Models for the Modeling of Visual and Auditory Perception

Modèles de Mélanges Conjugués pour la Modélisation de la Perception Visuelle et Auditive

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager