Modélisation ontologique pour la recherche d'information : évaluation de la similarité sémantique de textes et application à la détection de plagiats

Samia Iltache

Résumé

The expansion of the web and the development of different information technologies have contributed to the proliferation of digital documents online. This availability of information has the advantage of making knowledge accessible to all. However, many problems emerged regarding access to relevant information that meets a user's need. The first problem is related to the extraction of the useful available information. A second problem concerns the use of this knowledge which sometimes results in plagiarism.The aim of this thesis is the development of a model that better characterizes documents to facilitate their access and also to detect those with a risk of plagiarism. This model is based on domain ontologies for the classification of documents and for calculating the similarity of documents belonging to the same domain as well. We are particularly interested in scientific papers, specifically their abstracts, short texts that are relatively well structured. The problem is, therefore, to determine how to assess the semantic proximity/similarity of two papers by examining their respective abstracts. Forasmuch as the domain ontology provides a useful way to represent knowledge relative to a given domain, our process is based on two actions:(i) An automatic classification of documents in a domain selected from several candidate domains. This classification determines the meaning of a document from the global context in which its content is used. (ii) A comparison of the texts performed on the basis of the construction of the semantic perimeter of each abstract and on a mutual enrichment performed when comparing the graphs of the abstracts. The semantic comparison of the abstracts is based on a segmentation of their respective content into zones, documentary units, reflecting their logical structure. It is on the comparison of the conceptual graphs of the zones playing the same role that the calculation of the similarity of the abstracts relies.

L’expansion du web et le développement des technologies de l’information ont contribué à la prolifération des documents numériques en ligne. Cette disponibilité de l’information présente l’avantage de rendre la connaissance accessible à tous mais soulève de nombreux problèmes quant à l’accès à l’information pertinente, répondant à un besoin utilisateur. Un premier problème est lié à l’extraction de l’information utile parmi celle qui est disponible. Un second problème concerne l’appropriation de ces connaissances qui parfois, se traduit par du plagiat. L’objectif de cette thèse est le développement d’un modèle permettant de mieux caractériser les documents afin d’en faciliter l’accès mais aussi de détecter ceux présentant un risque de plagiat. Ce modèle s’appuie sur des ontologies de domaine pour la classification des documents et pour le calcul de la similarité des documents appartenant à un même domaine. Nous nous intéressons plus spécifiquement aux articles scientifiques, et notamment à leurs résumés, textes courts et relativement structurés. Il s’agit dès lors de déterminer comment évaluer la proximité/similarité sémantique de deux articles à travers l'examen de leurs résumés respectifs. Considérant qu’une ontologie de domaine regroupe les connaissances relatives à un domaine scientifique donné, notre processus est basé sur deux actions :(i) Une classification automatique des documents dans un domaine choisi parmi plusieurs domaines candidats. Cette classification détermine le sens d’un document à partir du contexte global dans lequel s’inscrit son contenu. (ii) Une comparaison des textes réalisée sur la base de la construction de ce que nous appelons le périmètre sémantique de chaque résumé et sur un enrichissement mutuel effectué lors de la comparaison des graphes des résumés. La comparaison sémantique des résumés s’appuie sur une segmentation de leur contenu respectif en zones, unités documentaires, reflétant leur structure logique.

Ontological modeling for information retrieval : evaluation of the semantic similarity of texts and application to plagiarism detection

Modélisation ontologique pour la recherche d'information : évaluation de la similarité sémantique de textes et application à la détection de plagiats

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager