Un nouvel algorithme incrémental de gaz neuronal croissant basé sur l'étiquetage des clusters par maximisation de vraisemblance : application au clustering des gros corpus de données textuelles hétérogènes - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Communication Dans Un Congrès Année : 2010

Un nouvel algorithme incrémental de gaz neuronal croissant basé sur l'étiquetage des clusters par maximisation de vraisemblance : application au clustering des gros corpus de données textuelles hétérogènes

Résumé

Dans le cadre de la veille ou de l'analyse prospective, il est très courant d'avoir recours aux méthodes de clustering pour traiter de gros volumes de données textuelles. Les algorithmes de clustering affichent généralement de bonnes performances dans le cas où les corpus à traiter sont de nature homogène. Cela vaut particulièrement pour les algorithmes de clustering neuronaux, et encore plus spécifiquement pour les récentes versions adaptatives de ces algorithmes, comme l'algorithme incrémental de gaz neuronal croissant (IGNG). Cependant, ce papier illustre clairement la chute drastique de performance de la plupart de ces algorithmes dans le cas plus réaliste où les corpus à traiter s'avèrent être de nature hétérogène, ou polythématique. Dans ce contexte, des mesures spécifiques de qualité de clustering et de nouvelles techniques d'étiquetage des clusters qui sont indépendantes de la méthode de clustering utilisée sont exploitées pour l'évaluation des performances des méthodes. Un nouvel algorithme de gaz neuronal croissant exploitant une mesure de similarité basée sur la maximisation de la qualité de l'étiquetage des clusters est ensuite présenté comme une alternative à l'algorithme IGNG original basé sur la distance euclidienne. Nous montrons que cette solution permet d'obtenir un accroissement très significatif de performance pour le clustering des données textuelles polythématiques. Celle-ci fournit également par ailleurs un véritable caractère incrémental à l'algorithme proposé.
Fichier principal
Vignette du fichier
lamirel.pdf (230.97 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-00614060 , version 1 (09-08-2011)

Licence

Paternité

Identifiants

  • HAL Id : hal-00614060 , version 1

Citer

Jean-Charles Lamirel, Zied Boulila, Maha Ghribi, Pascal Cuxac, Claire François. Un nouvel algorithme incrémental de gaz neuronal croissant basé sur l'étiquetage des clusters par maximisation de vraisemblance : application au clustering des gros corpus de données textuelles hétérogènes. Sixième colloque : Veille Stratégique Scientifique et Technologique - VSST'2010, Oct 2010, Toulouse, France. ⟨hal-00614060⟩
307 Consultations
593 Téléchargements

Partager

Gmail Facebook X LinkedIn More