Utilité d’un couplage entre Word2Vec et une analyse sémantique latente : expérimentation en catégorisation de données textuelles - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Communication Dans Un Congrès Année : 2019

Utilité d’un couplage entre Word2Vec et une analyse sémantique latente : expérimentation en catégorisation de données textuelles

Résumé

Nous réexaminons dans cet article les méthodes de vectorisation de textes dans le cadre d’une étude de classification de documents. Nous étudions les méthodes basées sur des plongements de mots (word2vec) ou de documents (analyse sémantique latente, ou sac de mots associées à diverses pondérations) ainsi que certaines combinaisons de ces méthodes. A cette fin, nous évaluons ces méthodes de vectorisation en utilisant trois modèles de classification (un percep- tron multicouches, une machine linéaire à vecteurs supports optimisée par des- cente de gradient stochastique et un classifieur multinomial naïf de Bayes). Nos résultats montrent que le modèle proposé pour associer les méthodes word2vec et LSA, qui conjugue les deux caractérisations complémentaires du contexte d’occurrence des mots (local pour word2vec et global pour LSA), permet de produire une vectorisation robuste, en général plus discriminante que les autres approches testées.
Fichier non déposé

Dates et versions

hal-02000191 , version 1 (30-01-2019)

Identifiants

  • HAL Id : hal-02000191 , version 1

Citer

Oussama Ahmia, Nicolas Béchet, Pierre-François Marteau, Alexandre Garel. Utilité d’un couplage entre Word2Vec et une analyse sémantique latente : expérimentation en catégorisation de données textuelles. Extraction et Gestion des Connaissances (EGC 2019), Jan 2019, Metz, France. pp.129-140. ⟨hal-02000191⟩
146 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More