Toward Unsupervised Human Activity and Gesture Recognition in Videos

Farhood Negin

Résumé

The main goal of this thesis is to propose a complete framework for automatic discovery, modeling, and recognition of human activities in videos. Human activity recognition is the ability to automatically detect and analyze human activities from extracted information captured by sensors (E.g. sequence of images captured by RGB camera). In spite of the enormous efforts, activity recognition remains as a dynamic research field due to the major challenges which yet to be overcome. Among the challenges being faced, the high complexity of human activities such as variability in viewpoint, appearance and motion pattern variations are the most important ones. Moreover, temporal and spatial segmentation of an action in videos, semantic modeling of the activities and sub-activities as well as obtaining and handling data are other notable challenges. First, we review and evaluate the prominent and state-of-the-art techniques in the filed. Then, we propose our supervised activity recognition framework developed based on the geometrical features, local descriptors, and deep features to produce baselines. These frameworks follow conventional bag-of-words and Fisher vector based pipelines to represent and model the activities. In order to model and recognize activities in long-term videos, we propose a framework that combines global and local perceptual information from the scene and accordingly constructs hierarchical activity models. First, we create a scene model based on the acquired trajectory information. The scene models contain contextual information describing interesting regions in an environment with basic spatial semantics. Using the created scene models, we build an intermediate level of Primitive events to enable interpretation of low-level information. The Primitive event representation provides a meaningful description of the global motion in the scene. Based on the created scene models in multiple resolutions and Primitive event representations, a pattern-based method is used for discovering higher level activities. To complete the modeling procedure, we extract multiple descriptors and combine them with the collected information regarding discovered activities. We propose two variations of the framework to combine this information. In the first variation of the framework, using the extracted descriptors, a supervised classifier based on Fisher vector is trained and the predicted semantic labels are embedded in the constructed hierarchical models. In the second variation, to have a completely unsupervised framework, rather than embedding the semantic labels, the trained visual codebooks are stored in the models. We propose a probabilistic recognition method that finds occurrences of similar activities to the modeled activities in unseen videos. The proposed frameworks are capable of online recognition of activities thanks to the learned scene regions. Finally, we evaluate the proposed frameworks on two realistic Activities of Daily Living (ADL) datasets recorded from patients in a hospital environment. Furthermore, to model fine motions of the human body, we propose four different gesture recognition frameworks where each framework accepts one or a combination of different data modalities as input. We evaluate the developed frameworks in the context of a medical diagnostic test namely Praxis. Praxis test is a gesture-based diagnostic test which has been accepted as a diagnostically indicative of cortical pathologies such as Alzheimer’s disease. Despite being simple, this test is oftentimes skipped by the clinicians. With the proposed methods, we investigate the static and dynamic upper-body gestures based on the Praxis test and their potential in a medical framework to automatize the test procedures for computer-assisted cognitive assessment of older adults. In order to carry out gesture recognition as well as correctness assessment of the performances, we have collected a novel challenging RGB-D gesture video dataset recorded by Kinect V.2, which contains 29 specific gestures suggested by clinicians and recorded from both experts and patients performing the gesture set. With this dataset, we suggest a new challenge in gesture recognition which is to obtain an objective opinion about the correct and incorrect performances of very similar gestures. Our proposed deep learning based framework learns the dynamics of upper-body gestures by considering the videos as sequences of short-term clips of the gestures. At first, our approach uses body part detection to extract image patches surrounding the hands. Afterward, by means of a fine-tuned convolutional neural network (CNN) model, it learns deep hand features which are then linked to a long short-term memory to capture the temporal dependencies among the video frames. We report the results of the experiments on four developed methods. The experiments show the effectiveness of our deep learning based approach in gesture recognition and performance assessment tasks. Satisfaction of clinicians from the assessment reports indicates a high impact of the framework corresponding to the diagnosis.

L’objectif principal de cette thèse est de proposer un framework complet pour une découverte, modélisation et reconnaissance automatiques des activités humaines dans les vidéos. La reconnaissance d’activités humaines est la capacité à détecter et analyser automatiquement des activités humaines à partir des informations extraites et requises par des capteurs (par exemple: une séquence d’images capturées par une caméra RGB). Malgré les efforts énormes, la reconnaissance d’activités reste un domaine de recherche dynamique en raison des défis/challenges majeurs qui restent à surmonter. Parmi les défis à relever, on cite la grande complexité des activités humaines, où la variabilité du point de vue, l’apparence, et les variations de modèles de mouvement sont les problèmes les plus importants. La segmentation temporelle et spatiale d’une action dans les vidéos, la modélisation sémantique des activités et des sous-activités ainsi que l’obtention et le traitement de données sont d’autres défis notables. D’abord, nous examinons et évaluons les techniques déjà existantes dans le domaine (état-de-l’art). Ensuite, nous proposons notre framework de reconnaissance d’activités supervisée, développé en fonction des caractéristiques géométriques, des descripteurs locaux et des caractéristiques profondes, pour produire des lignes de base. Ces frameworks suivent des mots-clés/groupes de mots conventionnels et des pipelines basés sur des vecteurs de Fisher pour représenter et modéliser les activités. Afin de modéliser et de reconnaître des activités dans des vidéos à long terme, nous proposons aussi un framework qui combine des informations perceptuelles globales et locales issues de la scène, et qui construit, en conséquence, des modèles d’activités hiérarchiques. Tout d’abord, nous créons un modèle de scène basé sur les informations de trajectoires acquises. Les modèles de scène contiennent des informations contextuelles décrivant des régions intéressantes dans un environnement avec une sémantique spatiale basique. En utilisant les modèles de scène créés, nous construisons un niveau intermédiaire d’événements primitifs pour permettre l’interprétation des informations de bas niveau. La représentation de l’événement primitif fournit une description significative du mouvement global dans la scène. En se basant sur des modèles de scène créés dans plusieurs résolutions et représentations d’événements primitifs, une méthode basée sur des modèles est utilisée pour découvrir les activités de niveau supérieur. Pour compléter la procédure de modélisation, nous extrayons plusieurs descripteurs et les combinons avec les informations collectées concernant les activités découvertes. Nous proposons deux catégories du framework pour combiner ces informations. Dans la première catégorie du framework, en utilisant les descripteurs extraits, un classificateur supervisé basé sur le vecteur de Fisher est formé et les étiquettes sémantiques prédites sont intégrées dans les modèles hiérarchiques construits. Dans la seconde catégorie, pour avoir un framework complètement non supervisé, plutôt que d’incorporer les étiquettes sémantiques, les codes visuels formés sont stockés dans les modèles. Nous proposons une méthode de reconnaissance probabiliste qui trouve les occurrences d’activités similaires aux activités modélisées dans des vidéos non vues. Enfin, nous évaluons les frameworks proposés sur deux ensembles de données réalistes sur les activités de la vie quotidienne (Activity Daily Living) enregistrées auprés des patients dans un environnement hospitalier. En outre, pour modéliser des mouvements fins du corps humain, nous proposons quatre différents frameworks de reconnaissance de gestes où chaque framework accepte une ou une combinaison de différentes modalités de données en entrée. Nous évaluons les frameworks développés dans le contexte du test de diagnostic médical, appelé Praxis. Le test Praxis est un test diagnostique basé sur les gestes, il a été accepté comme diagnostic révélateur de pathologies corticales telles que la maladie d’Alzheimer. Malgré sa simplicité, ce test est souvent sauté par les cliniciens. Avec les méthodes proposées, nous étudions les gestes statiques et dynamiques du haut du corps basés sur le test de Praxis et leur potentiel dans un framework médical pour automatiser les procédures de test, pour l’évaluation cognitive des personnes âgées assistée par ordinateur. Afin de réaliser la reconnaissance gestuelle ainsi que l’évaluation correcte des performances, nous avons collecté un nouveau groupe de données vidéo gestuelle RGB-D relevé par Kinect V.2, qui contient 29 gestes spécifiques suggérés par les cliniciens et enregistrés à la fois par des experts et des patients effectuant ce jeu de gestes. Avec cet ensemble de données, nous proposons un nouveau défi dans la reconnaissance gestuelle qui consiste à obtenir une opinion objective sur les performances correctes et incorrectes de gestes très similaires. Notre framework basé sur l’apprentissage en profondeur (Deep Learning) proposé, apprend la dynamique des gestes du haut du corps en considérant les vidéos comme des séquences de clips à court terme des gestes. Au début, notre approche utilise la détection des parties du corps pour extraire les morceaux d’image entourant les mains. Ensuite, à l’aide d’un modèle de réseau neuronal convolutif (CNN) affiné, il apprend des caractéristiques de main profonde qui sont ensuite liées à une longue mémoire à court terme pour capturer les dépendances temporelles entre les trames vidéo. Nous rapportons les résultats des expériences sur quatre méthodes développées. Les expériences montrent l’efficacité de notre approche basée sur l’apprentissage en profondeur dans la reconnaissance des gestes et les tâches d’évaluation de la performance. La satisfaction des cliniciens à partir des rapports d’évaluation indique un fort impact du framework correspondant au diagnostic.

Toward Unsupervised Human Activity and Gesture Recognition in Videos

Vers une reconnaissance des activités humaines non supervisées et des gestes dans les vidéos

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Partager