Approches statistiques et sémantiques pour la recherche des signaux faibles
Résumé
Nous présentons dans cet article une méthode d’extraction de signaux faibles basée sur une double approche. Dans un premier temps un traitement sémantique permet de détecter tous les multi-termes utilisés dans l’ensemble des documents analysés qu’ils soient issus d’une base homogène ou de la fusion de plusieurs bases hétérogènes et ce par traitement du texte libre enrichi par le vocabulaire contrôlé (mots clés, thésaurus, …). Dans un second temps, ne sont retenus que les termes récents à forte densité dans certains documents. Ce vocabulaire retenu est ensuite croisé avec lui-même dans une matrice de cooccurrences qui est ensuite triée par blocs afin d’en extraire des clusters sémantiques cohérents et nouveaux. Ces clusters correspondent à des signaux faibles qu’il est ensuite facile de valider en les croisant avec les autres champs : auteurs, laboratoires, pays, journaux, reste du vocabulaire.
Origine : Fichiers produits par l'(les) auteur(s)
Loading...