Image Representations for Pattern Recognition - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Thèse Année : 2011

Image Representations for Pattern Recognition

Thai V. Hoang
  • Fonction : Auteur
  • PersonId : 1003
  • IdHAL : hoang

Résumé

One of the main requirements in many signal processing applications is to have a "meaningful representation'' in which signal's characteristics are readily apparent. For example, for recognition, the representation should highlight salient features; for denoising, it should efficiently separate signal and noise; and for compression, it should capture a large part of signal using only a few coefficients. Interestingly, despite these seemingly different goals, good performance of signal processing applications generally has roots in the appropriateness of the adopted representations. Representing a signal involves the design of a set of elementary generating signals, or a dictionary of atoms, which is used to decompose the signal. For many years, dictionary design has been pursued by many researchers for various fields of applications: Fourier transform was proposed to solve the heat equation; Radon transform was created for the reconstruction problem; wavelet transform was developed for piece-wise smooth, one-dimensional signals with a finite number of discontinuities; and contourlet transform was designed to efficiently represent two-dimensional signals made of smooth regions separated by smooth boundaries, etc. For the developed dictionaries up to the present time, they can be roughly classified into two families: mathematical models of the data and sets of realizations of the data. Dictionaries of the first family are characterized by analytical formulations, which can sometimes be fast implemented. The representation coefficients of a signal in one dictionary are obtained by performing signal transform. Dictionaries of the second family, which are often general overcomplete, deliver greater flexibility and the ability to adapt to specific signal data. They are the results of much more recent dictionary designing approaches where dictionaries are learned from data for their representation. The existence of many dictionaries naturally leads to the problem of selecting the most appropriate one for the representation of signals in a certain situation. The selected dictionary should have distinguished and beneficial properties which are preferable in the targeted applications. Speaking differently, it is the actual application that controls the selection of dictionary, not the reverse. In the framework of this thesis, three types of dictionaries, which correspond to three types of transforms/representations, will be studied for their applicability in some image analysis and pattern recognition tasks. They are the Radon transform, unit disk-based moments, and sparse representation. The Radon transform and unit disk-based moments are for invariant pattern recognition problems, whereas sparse representation for image denoising, separation, and classification problems. This thesis contains a number of theoretical contributions which are accompanied by numerous validating experimental results. For the Radon transform, it discusses possible directions that can be followed to define invariant pattern descriptors, leading to the proposal of two descriptors that are totally invariant to rotation, scaling, and translation. For unit disk-based moments, it presents a unified view on strategies that have been used to define unit disk-based orthogonal moments, leading to the proposal of four generic polar harmonic moments and strategies for their fast computation. For sparse representation, it uses sparsity-based techniques for denoising and separation of graphical document images and proposes a representation framework that balances the three criteria sparsity, reconstruction error, and discrimination power for classification.
La pertinence d'une application de traitement de signal relève notamment du choix d'une "représentation adéquate''. Par exemple, pour la reconnaissance de formes, la représentation doit mettre en évidence les propriétés salientes d'un signal; en débruitage, permettre de séparer le signal du bruit; ou encore en compression, de synthétiser fidèlement le signal d'entrée à l'aide d'un nombre réduit de coefficients. Bien que les finalités de ces quelques traitements soient distinctes, il apparait clairement que le choix de la représentation impacte sur les performances obtenues. La représentation d'un signal implique la conception d'un ensemble génératif de signaux élémentaires, aussi appelé dictionnaire ou atomes, utilisé pour décomposer ce signal. Pendant de nombreuses années, la conception de dictionnaire a suscité un vif intérêt des chercheurs dans des domaines applicatifs variés: la transformée de Fourier a été employée pour résoudre l'équation de la chaleur; celle de Radon pour les problèmes de reconstruction; la transformée en ondelette a été introduite pour des signaux monodimensionnels présentant un nombre fini de discontinuités; la transformée en contourlet a été conçue pour représenter efficacement les signaux bidimensionnels composées de régions d'intensité homogène, à frontières lisses, etc. Jusqu'à présent, les dictionnaires existants peuvent être regroupés en deux familles d'approches: celles s'appuyant sur des modèles mathématiques de données et celles concernant l'ensemble de réalisations des données. Les dictionnaires de la première famille sont caractérisés par une formulation analytique. Les coefficients obtenus dans de telles représentations d'un signal correspondent à une transformée du signal, qui peuvent parfois être implémentée rapidement. Les dictionnaires de la seconde famille, qui sont fréquemment des dictionnaires surcomplets, offrent une grande flexibilité et permettent d'être adaptés aux traitements de données spécifiques. Ils sont le fruit de travaux plus récents pour lesquels les dictionnaires sont générés à partir des données en vue de la représentation de ces dernières. L'existence d'une multitude de dictionnaires conduit naturellement au problème de la sélection du meilleur d'entre eux pour la représentation de signaux dans un cadre applicatif donné. Ce choix doit être effectué en vertu des spécificités bénéfiques validées par les applications envisagées. En d'autres termes, c'est l'usage qui conduit à privilégier un dictionnaire. Dans ce manuscrit, trois types de dictionnaire, correspondant à autant de types de transformées/représentations, sont étudiés en vue de leur utilisation en analyse d'images et en reconnaissance de formes. Ces dictionnaires sont la transformée de Radon, les moments basés sur le disque unitaire et les représentations parcimonieuses. Les deux premiers dictionnaires sont employés pour la reconnaissance de formes invariantes tandis que la représentation parcimonieuse l'est pour des problèmes de débruitage, de séparation des sources d'information et de classification. Cette thèse présentent des contributions théoriques validées par de nombreux résultats expérimentaux. Concernant la transformée de Radon, des pistes sont proposées afin d'obtenir des descripteurs de formes invariants, et conduisent à définir deux descripteurs invariants aux rotations, l'échelle et la translation. Concernant les moments basés sur le disque unitaire, nous formalisons les stratégies conduisant à l'obtention de moments orthogonaux. C'est ainsi que quatre moments harmoniques polaires génériques et des stratégies pour leurs calculs rapides sont introduits. Enfin, concernant les représentations parcimonieuses, nous proposons et validons un formalisme de représentation permettant de combiner les trois critères suivant : la parcimonie, l'erreur de reconstruction ainsi que le pouvoir discriminant en classification.
Fichier principal
Vignette du fichier
PhD_thesis.pdf (0 B) Télécharger le fichier
Loading...

Dates et versions

tel-00714651 , version 1 (05-07-2012)
tel-00714651 , version 2 (26-09-2013)

Identifiants

  • HAL Id : tel-00714651 , version 2

Citer

Thai V. Hoang. Image Representations for Pattern Recognition. Image Processing [eess.IV]. Université Nancy II, 2011. English. ⟨NNT : ⟩. ⟨tel-00714651v2⟩
678 Consultations
801 Téléchargements

Partager

Gmail Facebook X LinkedIn More