Audio-Visual Analysis In the Framework of Humans Interacting with Robots

Israel Dejene Gebru

Résumé

In recent years, there has been a growing interest in human-robot interaction (HRI), with the aim to enable robots to naturally interact and communicate with humans. Natural interaction implies that robots not only need to understand speech and non-verbal communication cues such as body gesture, gaze, or facial expressions, but they also need to understand the dynamics of the social interplay, e.g. find people in the environment, distinguish between different people, track them through the physical space, parse their actions and activities, estimate their engagement, identify who is speaking, who speaks to whom, etc. All these task necessitate the robots to have multimodal perception skills to meaningfully detect and integrate information from their multiple sensory channels. In this thesis, we focus on the robot’s audio-visual sensory inputs consisting of microphones and video cameras. Among the different addressable perception tasks, in this thesis we explore three, namely; (1) multiple speakers localization, (2) multiple-person location tracking, and (3) speaker diarization. The majority of existing works in signal processing and computer vision address these problems by utilizing either audio signals or visual information. However, in this thesis, we address them via fusion of the audio and visual information gathered by two microphones and one video camera. Our goal is to exploit the complimentary nature of the audio and visual modalities with a hope of attaining significant improvements on robustness and performance over systems that use a single modality. Moreover, the three problems are addressed considering challenging HRI scenarios such as a robot engaged in a multi-party interaction with varying number of participants, which may speak at the same time as well as may move around the scene and turn their heads/faces towards the other participants rather than facing the robot.

Au cours des dernières années, il y a eu un intérêt croissant pour l'interaction homme-robot (HRI), dans le but de permettre aux robots d'interagir naturellement et de communiquer avec les humains. L'interaction naturelle implique que les robots doivent non seulement comprendre les signaux de la parole et de la communication non verbale tels que le geste corporel, le regard ou les expressions faciales, mais ils doivent également comprendre la dynamique de l'interaction sociale, par ex. trouver des personnes dans l'environnement, distinguer les différentes personnes, les suivre dans l'espace physique, analyser leurs actions et leurs activités, estimer leur engagement, identifier qui parle, qui parle à qui, etc. Toutes ces tâches nécessitent une perception multimodale de la part des robots compétences pour détecter et intégrer de manière significative les informations provenant de leurs multiples canaux sensoriels. Dans cette thèse, nous nous concentrons sur les entrées sensorielles audio-visuelles du robot composées de microphones et de caméras vidéo. Parmi les différentes tâches de perception adressables, dans cette thèse, nous explorons trois, à savoir; (1) la localisation de plusieurs locuteurs, (2) le suivi de l'emplacement de plusieurs personnes, et (3) la diarisation du locuteur. La majorité des travaux existants sur le traitement du signal et la vision par ordinateur abordent ces problèmes en utilisant des signaux audio ou des informations visuelles. Cependant, dans cette thèse, nous les abordons via la fusion des informations audio et visuelles recueillies par deux microphones et une caméra vidéo. Notre objectif est d'exploiter la nature complémentaire des modalités audio et visuelles dans l'espoir d'obtenir des améliorations significatives de la robustesse et de la performance par rapport aux systèmes utilisant une seule modalité. De plus, les trois problèmes sont abordés en considérant des scénarios HRI difficiles tels qu'un robot engagé dans une interaction multipartite avec un nombre variable de participants, qui peuvent parler en même temps et qui peuvent se déplacer autour de la scène et tourner leur tête vers les autres participants plutôt que de faire face au robot.

Audio-Visual Analysis In the Framework of Humans Interacting with Robots

Analyse Audio-Visuelle dans le Contexte de l'Intéraction Humain-Robot

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager