Traitement automatique des langues pour l'indexation d'images - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Thèse Année : 2010

Natural language processing for image indexing

Traitement automatique des langues pour l'indexation d'images

Pierre Tirilly

Résumé

Although it is globally in line with traditional information retrieval (IR), image indexing makes poor use of the existing work about textual IR and natural language processing (NLP). We identify two levels where such work could become integrated to image indexing systems. The first level is the description of the visual content of images. To integrate NLP at this level, we adopt a visual word-based representation of images, as proposed by Sivic and Zisserman. This representation raises two issues that are classical in textual IR: choosing relevant index terms and taking into account the relations between index terms. We address the first issue by studying stop-lists and weighting schemes in the context of image indexing. Our experiments show that there is no optimal weighting scheme in the general case, and that it should be chosen in keeping with the query. Then, we address the second issue by adapting language models to images, to go beyond the term independence hypothesis. Our experiments show that, in the context of image classification, taking account of spatial relations between visual words can improve the systems' performances. The second level where we integrate NLP to image indexing is semantic image indexing: we can use NLP techniques on texts coming with images to extract a textual description of these images. We first show that standard image descriptors are not suited to image annotation, then we propose an image annotation scheme that avoid this problem by using high-level textual and visual concepts: we extract named entities from texts and associate them with visual concepts that we detect in the images. We validate our approach on a real-world and large-scale news corpus.
Bien que s'inscrivant dans un cadre global de recherche d'information (RI) classique, l'indexation d'image ne tire que peu parti des nombreux travaux existants en RI textuelle et en traitement automatique des langues (TAL). Nous identifions deux niveaux auxquels de tels travaux peuvent s'intégrer aux systèmes d'indexation d'images. Le premier niveau est celui de la description du contenu visuel des images. Pour y intégrer des techniques de TAL, nous adoptons la description des images par mots visuels proposée par Sivic et Zisserman. Cette représentation soulève deux problématiques similaires aux problématiques classiques de la RI textuelle~: le choix des termes d'indexation les plus pertinents pour décrire les documents et la prise en compte des relations entre ces termes. Pour répondre à la première de ces problématiques nous proposons une étude des stop-lists et des pondérations dans le cadre de l'indexation d'images. Cette étude montre que, contrairement au cas des textes, il n'existe pas de pondération optimale pour tous types de requêtes, et que la pondération doit être choisie en fonction de la requête. Pour la seconde, nous utilisons des modèles de langues, outil classique du TAL que nous adaptons au cas des images, pour dépasser l'hypothèse d'indépendance des termes dans un cadre de classification d'images. Nos expérimentations montrent que prendre en compte des relations géométriques entre mots visuels permet d'améliorer les performances des systèmes. Le second niveau étudié est l'indexation sémantique des images : il est possible d'utiliser des méthodes de TAL sur des textes accompagnant les images pour obtenir des descriptions textuelles de celles-ci. Dans un premier temps, nous montrons que les descripteurs classiques d'images ne permettent pas d'obtenir des systèmes d'annotation d'images efficaces. Puis nous proposons une méthode d'annotation qui contourne cet écueil en se basant sur des descripteurs textuels et visuels de haut-niveau~: nous extrayons des textes des entités nommées, que nous mettons en relation avec des concepts visuels détectés dans les images afin d'annoter celles-ci. Nous validons notre approche sur un corpus réel et de grande taille composé d'articles de presse.
Fichier principal
Vignette du fichier
these.pdf (6.89 Mo) Télécharger le fichier
soutenance.pdf (9.84 Mo) Télécharger le fichier
Format : Autre

Dates et versions

tel-00516422 , version 1 (09-09-2010)

Identifiants

  • HAL Id : tel-00516422 , version 1

Citer

Pierre Tirilly. Traitement automatique des langues pour l'indexation d'images. Interface homme-machine [cs.HC]. Université Rennes 1, 2010. Français. ⟨NNT : ⟩. ⟨tel-00516422⟩
422 Consultations
825 Téléchargements

Partager

Gmail Facebook X LinkedIn More