Scénarios temporels pour l'interprétation automatique de séquences vidéos - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Thèse Année : 2004

Scénarios temporels pour l'interprétation automatique de séquences vidéos

Temporal Scenario for Automatic Video Interpretation

Résumé

This thesis research focuses on the recognition of temporal scenarios for Automatic Video Interpretation: the goal of this work is to recognize in real-time the behaviors of individuals evolving in a scene depicted by video sequences which were captured by cameras. The recognition process takes the following as input: (1) human behav-ior (i.e., temporal scenario) models predefined by experts; (2) 3D geometric and semantic information of the ob-served environment; and (3) a stream of individuals tracked by a vision module.
To deal with this issue, we have proposed a generic model of temporal scenarios and a description language to rep-resent the knowledge of human behaviors. The representation of this knowledge needs to be clear, rich, intuitive and flexible. The proposed model of a temporal scenario M is composed of five components: (1) a set of physical object variables corresponding to the physical objects involved in M; (2) a set of temporal variables corresponding to the sub-scenarios composing M; (3) a set of forbidden variables corresponding to the scenarios that are not al-lowed to occur during the recognition of M; (4) a set of constraints (symbolic, logical, spatial and temporal con-straints including Allen's interval algebra operators) involving these variables; and (5) a set of decisions corre-sponding to the tasks predefined by experts that are needed to be executed when M has been recognized.
We have also proposed a temporal constraint resolution technique to recognize in real-time the temporal scenario models predefined by experts. The proposed algorithm is most of the time efficient for processing temporal con-straints as well as for combining several actors defined within a given scenario M. By efficient we mean that the recognition process is linear with the number of sub-scenarios and with the number of physical object variables defined within M in most cases.
To validate the proposed algorithm in terms of correctness, robustness and processing time with respect to scenario and scene properties (e.g., number of sub-scenarios, number of persons in the scene), we have tested the algorithm on several videos of different applications, in both on-line and off-line modes and also on simulated data.
By the experiments conducted in metro surveillance and bank monitoring applications, the proposed scenario de-scription language shows the capability to represent easily temporal scenarios corresponding to the human behav-iors of interest in these applications. Moreover, the proposed temporal scenario recognition algorithm shows the capability to recognize in real-time (at least 10 frames/second) complex scenario models (up to 10 physical object variables and 10 sub-scenario variables per scenario) with complex video sequences (up to 240 persons/frame in the scene).
Cette thèse traite de la reconnaissance de scénarios temporels pour l'interprétation automatique de sé-quences vidéos : l'objectif est de reconnaître à cadence vidéo les comportements d'individus évoluant dans des scènes décrites par des séquences vidéos (acquises par des caméras). Le processus de reconnaissance prend en en-trée (1) les modèles de comportements humains (i.e. scénarios temporels) pré-définis par des experts, (2) les infor-mations sémantiques et géometriques-3D de l'environnement observé et (3) les individus suivis par un module de vision.
Pour résoudre ce problème, premièrement, nous avons proposé un modèle générique de scénarios temporels et un langage de description pour la représentation de connaissances décrivant des comportements humains. La repré-sentation de ces connaissances doit être claire, riche, intuitive et flexible pour être compris par les experts du do-maine d'application. Le modèle proposé d'un scénario temporel M se compose de cinq parties : (1) un ensemble de variables correspondant aux acteurs impliqués dans M, (2) un ensemble de variables temporelles correspondant aux sous-scénarios qui composent M, (3) un ensemble de variables interdites correspondant aux scénarios qui ne doivent pas être reconnus pendant la reconnaissance de M, (4) un ensemble de contraintes (symboliques, logiques, spatiales et contraintes temporelles comprenant les opérateurs de l'algèbre d'intervalles d'Allen) portant sur ces variables et (5) un ensemble de décisions correspondant aux tâches pré-définies par les experts pour être exécutées quand M est reconnu.
Deuxièmement, nous avons proposé une technique originale de résolution de contraintes temporelles pour la re-connaissance à cadence vidéo de modèles de scénarios temporels pré-définis par des experts. En général, l'algorithme proposé est efficace car il propage les contraintes temporelles et combine seulement les objets physi-ques définis dans le scénario donné M. Par efficace, nous voulons dire que le processus de reconnaissance est li-néaire en fonction du nombre de sous-scénarios et, dans quasiment tous les cas, en fonction du nombre d'objets physiques définis dans M.
Pour valider l'algorithme proposé en termes d'exactitude, de robustesse et du temps de traitement en fonction de la complexité des scénarios et de la scène (e.g. nombre de sous-scénarios, nombre de personnes dans la scène), nous avons testé l'algorithme en appuyant sur un grand nombre de vidéos provenant de différentes applications sur des données simulées et également réelles en modes hors-ligne/en-ligne.
Les expérimentations réalisées dans différentes applications montrent la capacité du langage de description de scénarios à représenter facilement les scénarios temporels correspondant aux comportements humains d'intérêt. De plus, ces expérimentations montrent également la capacité de l'algorithme proposé à reconnaître à cadence vidéo des modèles de scénarios sophistiqués (jusqu'à 10 acteurs et 10 sous-scénarios par scénario) dans des sé-quences vidéos complexes (jusqu'à 240 personnes/frame dans la scène).
Fichier principal
Vignette du fichier
tvu_thesis.pdf (3.41 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00327919 , version 1 (09-10-2008)

Identifiants

  • HAL Id : tel-00327919 , version 1

Citer

Van-Thinh Vu. Scénarios temporels pour l'interprétation automatique de séquences vidéos. Interface homme-machine [cs.HC]. Université Nice Sophia Antipolis, 2004. Français. ⟨NNT : ⟩. ⟨tel-00327919⟩

Collections

INRIA INRIA2
235 Consultations
230 Téléchargements

Partager

Gmail Facebook X LinkedIn More