People Detection, Tracking and Re-identification Through a Video Camera Network

Malik Souded

Résumé

This thesis is performed in industrial context and presents a whole framework for people detection and tracking in a camera network. The three main processing steps are addressed: people detection, people tracking in mono-camera context, and people re-identification in multi-camera context. High performances, system genericity and ease of deployment, and the real-time processing are the most important constraints which have guided this work. Some parts of the proposed work are already integrated and deployed in a commercial product while others are in prototype state and are planned to be integrated in future. People detection aims at localizing and delimiting people in video sequences and static images. The proposed people detection is a full body one and it is performed using a cascade of classifiers trained using LogitBoost algorithm on region covariance descriptors. A state of the art approach, providing good performances but not applicable for real time is taken as basis and is optimized to process in real time while detection performances are slightly improved. The optimization scheme is generalizable to many other kind of detectors based on cascade of classifiers where all possible weak classifiers cannot be reasonably tested. People tracking in mono-camera context aims at providing a set of reliable images of every observed person by each camera, to extract his visual signature for re-identification purpose. It provides also some real world information which are useful to improve re-identification process, as long as this mono-camera tracking is performed using static and calibrated cameras. It is achieved by tracking SIFT features using a specific particle filter, taking in account many useful information like background subtraction results and a proposed reliability measure of SIFT descriptors, in addition to a data association framework which infer object tracking from SIFT points one, and which deals with most of possible cases, especially occlusions. Finally, people re-identification is performed using an appearance based approach. A state of the art approach, which performs in real time, but provides various performances depending on the input data is improved to provide better performances while keeping the real-time processing advantage. The improvements are introduced at different levels of the original approach, by replacing some of initial steps or by adding new ones. A context-aware part is introduced to robustify the extracted visual signature against people orientations, ensuring better re-identification performances in real application case. This thesis makes the following contributions: A people detector which proposes (1) a generalizable clustering approach for negative data before people detector training, speeding-up training process and optimizing the trained detector which performs faster (real-time) and better (performance improvements). An object tracking framework, based on SIFT feature tracking by particle filter and data association process, which proposes: (2) a method to detect and select constant number of well distributed SIFT points on the object of interest for tracking, allowing better representation of the object and thereby, a better tracking performances especially in partial occlusion situations, (3) an hybrid particle weighting method, which improves SIFT points tracking, taking in account the SIFT descriptor similarity measure and the background subtraction result in a sophisticated way (not a simple binary weighting), (4) a data association process to detect all possible situations during tracking (including partial/full occlusions) and to manage each of them. This data association process use the tracked SIFT points localization and their reliability measures (introduced in the previous step) to identify the state of each detected/tracked object, and to update the whole tracked object states, (5) a fast (real-time) occlusion management method, using tracked SIFT points, color information, and some other "real world" information (real dimensions, real velocity), learned during object tracking, to reacquire occluded objects after their reappearance. Finally, for people re-identification, a state of the art method is strongly improved by (6) a fast method for images alignment for multiple-shot case, to reduce people delimitation error in images and allow same parts comparison (7) the add of texture information to the computed visual signatures, by adding SIFT features as a new feature in the signature and by characterizing RHSP patches by covariance descriptors encoding both color and texture information at the same time, (8) a method for people visible side classification, allowing to compute more accurate and discriminant visual signatures for each class, and allowing a better feature weighing (9) a method to use camera calibration information to filter candidate people who does not match spatio-temporal constraints (10) an adaptive feature weighting method to allow each re-identification query to focus on the more discriminant features, and to reduce or cancel local feature weights in some cases, according to visible side classification.

Cette thèse a été effectuée dans un contexte industriel et présente un Framework complet pour la étection et le suivi de personnes dans un réseau de caméras de surveillance. Les trois principales étapes du processus sont traitées: la d'détection de personnes, le suivi de personnes dans un contexte mono-caméra et enfin la ré-identification de personnes dans le contexte multi-caméras. Les performances élevées, la généricité et la facilité de déploiement ainsi que le traitement en temps réel sont les contraintes fortes qui ont guidé ces travaux. Certaines parties du travail proposé ont déjà été intégrées et déployées dans un produit commercial de vidéo surveillance intelligente alors que les autres parties sont à l'état de prototypes et seront intégrées dans un futur proche. La détection de personnes vise à localiser et d'délimiter les personnes sur les s'séquences vidéo ainsi que sur les images statiques. Le d'détecteur de personnes proposé appartient à la catégorie des d'détecteurs de silhouette entière et opère à l'aide d'une cascade de classifieurs, appris en utilisant l'algorithme LogitBoost sur les descripteurs de covariances de régions. Une approche de l'état de l'art, fournissant de bonnes performances mais non applicable pour le traitement en temps réel a 'été prise comme base de travail et a 'été optimisée afin de permettre le traitement en temps réel tout en améliorant l'légèrement les performances de détection. La méthode d'optimisation proposée est généralisable à de nombreux autres types de d'détecteurs basés sur les cascades de classifieurs, et dont l'espace de tous les classifieurs faibles possible ne peut être testé exhaustivement dans un temps raisonnable. Le suivi de personnes dans le contexte mono-caméra vise à fournir un ensemble d'imagettes de chaque personne observée par chaque caméra, afin de permettre le calcul de la signature visuelle de ces personnes. Il fournit aussi certaines informations du monde réel qui sont très utiles pour améliorer les résultats de la ré-identification, du moment que ce suivi est réalisé en utilisant des caméras statiques et calibrées. Ce suivi de personne est effectué à l'aide du suivi de points d'intérêt SIFT en utilisant un filtre à particule spécifique, prenant en compte un certain nombre d'informations utiles telles que le résultats de la soustraction de fond et la mesure de fiabilité des descripteurs SIFT que nous proposons dans ce travail, en plus d'un Framework d'association de données qui permet d'inférer le suivi d'objets à partir du suivi des points SIFT, et qui permet de gérer la plus part des cas possibles, particulièrement les occultations. Enfin, la ré-identification de personnes est effectuée 'a l'aide d'une approche de type apparence globale. Une approche de l'état de l'art, permettant un traitement en temps réel mais fournissant des performances très variables en fonction des données fournies en entrée, est améliorée afin de fournir de meilleures performances tout en maintenant l'avantage du traitement en temps réel. Les améliorations ont été introduites à différents niveau du traitement de l'approche originale, soit en remplaçant certaines étapes initiales ou en ajoutant de nouvelles. Une partie " connaissance du contexte " a été introduite afin de rendre la signature visuelle plus robuste aux changement d'orientation des personnes, assurant de meilleures performances de ré-identification dans le cas d'applications réelles. Cette thèse fourni les contributions suivantes: Un d'détecteur de personnes qui propose (1) une approche généralisable de clustering pour les données négatives avant l'apprentissage du détecteur, accélérant la phase d'apprentissage et optimisant le détecteur dont le traitement devient plus rapide (temps réel) et plus précis (de meilleurs performances). Un Framework de suivi d'objets, basé sur le suivi de points d'intérêts SIFT 'a l'aide d'un filtre 'a particules, en plus d'un processus d'association de données, qui propose: (2) une m'méthode de d'détection et de sélection d'un nombre constant et correctement réparti de points SIFT sur l'objet d'intérêt, permettant une meilleure représentation de l'objet et de ce fait, de meilleures performances de suivi particulièrement dans le cas d'occultations partielles, (3) une méthode hybride de pondération de particules, qui améliore le suivi des points SIFT, prenant en compte la mesure de similarité du descripteur SIFT ainsi que les résultats de la soustraction de fond d'une manière plus complexe qu'une simple pondération binaire, (4) une méthode d'association de données détectant toutes les situations possibles durant le suivi (incluant les occultations partielles et complètes) et traitant chacune d'elles. Cette m'méthode d'association de données utilise la position des points SIFT et leurs mesure de fiabilité (introduite dans l'étape précédente) pour identifier l'état de chaque objet détecté/suivi et de mettre à jour les états de l'ensemble des objets suivis, (5) une méthode rapide (temps réelle) de gestion des occultations, utilisant les points SIFT suivis, l'information couleur, ainsi que certaines données du monde réel (véritable dimensions, véritable vitesse), apprises durant le suivi de l'objet, afin de réacquérir l'objet occulté lorsqu'il réapparait. Enfin, pour la détection de personnes, une méthode de l'état de l'art est fortement améliorée avec (6) une méthode temps réel pour l'alignement des images d'une même personne pour minimiser les erreurs de détection des personnes (7) l'enrichissement de la signature visuelle en ajoutant l'information de la texture sous la forme de descripteurs SIFT et de matrices de covariance encodant la couleur et la texture en même temps pour la description des patches RHSP, (8) la classification de la face visible de chaque personne sur chaque image, permettant de calculer des signatures visuelles pour chaque classe, augmentant l'efficacité de ces signatures visuelles et permettant aussi une meilleure pondération de chaque type d'information utilisée (9) l'utilisation de l'information fourni par la calibration des caméras et le suivi mono-camera des personnes pour filtrer les candidats dont l'état ne respecte pas les contraintes spatio-temporelles (10) une méthode de pondération automatique et adaptative pour mieux focaliser l'algorithme de ré-identification sur l'information la plus discriminante, et de diminuer ou supprimer l'importance de certain descripteurs locaux.

People Detection, Tracking and Re-identification Through a Video Camera Network

Détection, Suivi et Ré-identification de Personnes à Travers un Réseau de Caméras Vidéo

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Partager