Etude et réalisation d'un système d'extraction de connaissances à partir de textes

Hacène Cherfi

Résumé

The present PhD dissertation relates to the problems of text mining (TM), or knowledge extraction from texts. It is applied to the text analysis, the datamining process itself, and the interpretation of the elements of knowledge extracted. Within this framework, a system of knowledge extraction which is necessary to analyse the texts according to their contents is studied and established. The methods of datamining applied are the frequent itemset levelwise search (with the "Close'' algorithm) and the association rule extraction. The manuscript emphasises on the definition of the process of text mining and its main characteristics within the framework of the frequent itemset and association rule extraction. Moreover, a detailed study of a number of quality measures attached to the rules is carried out in the context of text mining. It is shown how far these quality measures can help the quality interpretation of the extracted rules; how they can influence the global quality of the text mining process. The use of a knowledge model comes to support this thesis work. It is shown, by the definition of a maximum likelihood probability measure, the significance to discover new knowledge by discarding the knowledge already present and described in the model of the domain. The association rules can, therefore, being used to enrich a terminological knowledge model of the selected domain. This PhD dissertation includes an experimentation and a validation on a real-world text corpus holding on molecular biology domain.

Ce travail de thèse porte sur la problématique d'extraction de connaissances à partir de textes, plus communément appelée la fouille de textes (FdT). Il s'articule autour des problèmes liés à l'analyse des textes, la fouille de textes proprement dite, et l'interprétation des éléments de connaissances extraits. Dans ce cadre, un système d'extraction des connaissances nécessaires pour analyser les textes en fonction de leur contenu est étudié et implanté. Les méthodes de fouille de données appliquées sont la recherche de motifs fréquents (avec l'algorithme Close) et l'extraction de règles d'association. Le mémoire s'attache à définir précisément le processus de fouille de textes et ses principales caractéristiques et propriétés en s'appuyant sur l'extraction de motifs fréquents et de règles d'association. En outre, une étude minutieuse d'un ensemble donné de mesures de qualité qu'il est possible d'attacher aux règles d'association est menée, toujours dans le cadre de la fouille de textes. Il est montré quel rôle ces mesures peuvent avoir sur la qualité et sur l'interprétation des règles extraites ; comment peuvent-elles influer sur la qualité globale du processus de fouille de textes.
L'utilisation d'un modèle de connaissances vient appuyer et surtout compléter cette première approche. Il est montré, par la définition d'une mesure de vraisemblance, l'intérêt de découvrir de nouvelles connaissances en écartant les connaissances déjà répertoriées et décrites par un modèle de connaissances du domaine. Les règles d'association peuvent donc être utilisées pour alimenter un modèle de connaissances terminologiques du domaine des textes choisi. La thèse inclut la réalisation d'un système appelé TAMIS : "Text Analysis by Mining Interesting ruleS" ainsi qu'une expérimentation et une validation sur des données réelles de résumés de textes en biologie moléculaire.

The Design and Implementation of a Mining System for
Knowledge Extraction from Texts