Reconnaissance dynamique de personnes dans les émissions audiovisuelles - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Thèse Année : 2014

Dynamic person recognition in TV show

Reconnaissance dynamique de personnes dans les émissions audiovisuelles

Résumé

The annotation of video streams by automatic content analysis is a growing field of research. The possibility of recognising persons appearing in TV shows allows to automatically structure ever-growing video archives. We present an original and dynamic approach to person recognition from video streams. This approach is dynamic as it benefits from the motion information contained in videos, whereas the static approaches are solely based on still images. The proposed approach is composed of two parts. In the first one, we extract persontracks from the shows and cluster them using a new descriptor and its associated similarity measure : space-time histograms. The originality of our approach is the integration of temporal data into the descriptor. Experiments show that it provides a better estimation of the similarity between persontracks. In the second part of our approach, we propose to use a facial recognition method which aims at "naming" the clusters. Various strategies are considered to assign an identity to a persontrack using its frames and to propagate this identity to members of the same cluster. These two aspects of our contribution have been evaluated using a corpus of real life TV shows broadcasted on BFMTV and LCP TV channels. The results of our experiments show that our approach significantly improves the precision of the recognition process thanks to the use of the temporal dimension.
L'analyse automatique de contenu des vidéos en vue de leur annotation est un domaine de recherche en plein essor. Reconnaître les personnes apparaissant dans des émissions audiovisuelles permet une structuration automatique d'une quantité grandissante d'archives audiovisuelles. Nous présentons une approche dynamique originale de reconnaissance de personnes dans les flux vidéo. Cette approche est dynamique car elle tire avantage de la richesse des informations contenues dans la vidéo, contrairement aux approches statiques basées uniquement sur les images. L'approche proposée comprend deux volets. Le premier volet consiste à isoler toutes les occurrences de personnes d'une émission, et à les regrouper en clusters en se basant sur un descripteur original : les histogrammes spatio-temporels, ainsi que sur une mesure de similarité dédiée. L'originalité vient de l'intégration d'informations temporelles dans le descripteur, qui permet une estimation plus fiable de la similarité entre les occurrences de personnes. Le second volet propose la mise en oeuvre d'une méthode de reconnaissance faciale. Différentes stratégies sont envisagées, d'une part pour identifier les occurrences de personnes selon les trames qui composent la séquence, et d'autre part pour propager les identités au sein des groupes selon leurs membres. Ces deux aspects de notre contribution ont été évalués à l'aide de corpus de données réelles contenant des émissions issues des chaînes BFMTV et LCP. Les résultats des expérimentations menées indiquent que l'approche proposée permet d'améliorer notablement la précision de reconnaissance en prenant en compte la dimension temporelle.
Fichier principal
Vignette du fichier
these-compressed.pdf (7.49 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-01114399 , version 1 (09-02-2015)

Identifiants

  • HAL Id : tel-01114399 , version 1

Citer

Rémi Auguste. Reconnaissance dynamique de personnes dans les émissions audiovisuelles. Vision par ordinateur et reconnaissance de formes [cs.CV]. Université de Lille 1, 2014. Français. ⟨NNT : ⟩. ⟨tel-01114399⟩
406 Consultations
1242 Téléchargements

Partager

Gmail Facebook X LinkedIn More