Une approche adaptative pour la recherche d'information sur le Web - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Thèse Année : 2009

Une approche adaptative pour la recherche d'information sur le Web

Résumé

The advent of the Web in the early 90s has deeply upset our society. This new media has rapidly become the greatest database in the world. Moreover, the ever increasing popularity of the Web engendered a huge dynamics with respect to Web data. Actually, by virtue of knowledge evolution, data is permanently added, deleted or updated from the Web which raises important issues regarding Web information retrieval. Existing Web search engines are neither able to take knowledge evolution into account when users submit their queries nor able to understand users' needs in order to return the most relevant information to users. The Semantic Web, proposed in 2001 and which aims at giving a sense to Web data in order to make it machine understandable, helps to improve Web search but knowledge evolution is still problematic. In this work, we address the problem of taking knowledge evolution for improving Web search in the sense of relevance of the returned results. The advocated solution is based on the use of ontologies, cornerstone of the Semantic Web, for representing both the domain targeted by the query and the profile of the user who submit the query. Ontologies are considered as knowledge that is evolving over time. In consequence, the ontology evolution problem has to be tackled as regards the evolution of the targeted domain but also with respect to the evolution of users' profile. First of all, we introduce a new paradigm: adaptive ontology as well as a process for making adaptive ontologies smoothly follow evolution of a domain. The so-defined model relies on the adaptation of ideas developed in the field of psychology and biology to the knowledge engineering field. Then, we propose an approach exploiting adaptive ontologies for improving Web information retrieval. To this end, we first introduce data structures, WPGraphs and W3Graphs, for representing Web data. We then introduce the ASK query language tailored for the extraction of relevant information from these structures. We also propose a set of query enrichment rules based on the exploitation of ontological elements as well as adaptive ontologies characteristics of the ontology representing the domain targeted by the query and the one representing the view of the user on the domain. Lastly, we introduce a tool for managing adaptive ontologies and for searching relevant information on the Web as well as an experimental validation of the introduced concepts. We based our validation on the definition of a realistic case study devoted to the retrieval of scientific articles published at the International World Wide Web series of conference.
Depuis son avènement au début des années 1990, le Web a profondément bouleversé la société contemporaine et ce à plusieurs niveaux. Ce nouvel outil est rapidement devenu incontournable et s'est affirmé comme la plus grande base de données du monde. La popularité sans cesse croissante du Web a généré une dynamique très importante principalement au niveau des données qu'il renferme. En effet, en vertu de l'évolution des connaissances du monde réel, de nouvelles informations sont rajoutées, d'autres retirées et certaines sont modifiées sans cesse sur le Web posant ainsi des problèmes pour retrouver l'information pertinente. Les moteurs de recherche existants ne sont pas capables d'une part de prendre en compte l'évolution des connaissances du Web lorsqu'un utilisateur pose une requête et d'autre part, de comprendre les besoins en information de l'utilisateur pour lui retourner les pages Web répondant à ces besoins. L'apparition du paradigme du Web Sémantique, visant à donner un sens aux données du Web pour les rendre compréhensibles par les machines grâce à l'utilisation d'ontologies, contribue à l'amélioration de la recherche documentaire sur le Web. Cependant, les problèmes posés par l'évolution restent peu pris en compte. Dans ces travaux, nous nous sommes intéressés à la prise en compte de l'évolution des données du Web dans le but d'améliorer, en terme de pertinence des résultats, la recherche documentaire sur le Web. La solution que nous proposons est basée sur les ontologies, fondement du Web Sémantique, pour représenter les connaissances du domaine de recherche visé par des requêtes ainsi que les vues des utilisateurs sur ce domaine. Dans la solution que nous préconisons, les ontologies sont vues comme des connaissances qui évoluent au cours du temps. Cette solution nous a obligé à considérer l'évolution des ontologies sous deux aspects différents : de manière générale par rapport au domaine visé par la requête et de manière plus particulière par rapport aux points de vue des utilisateurs. En premier lieu, nous proposons un modèle d'ontologies adaptatives ainsi qu'un processus d'adaptation permettant aux ontologies de s'adapter aux évolutions des connaissances d'un domaine. Le modèle ainsi défini s'appuie sur des idées émises dans les domaines de la psychologie et des sciences naturelles. Ensuite, nous proposons une exploitation de ce type d'ontologie pour améliorer la recherche documentaire sur le Web. Nous introduisons tout d'abord, des structures de données (les WPGraphs et W3Graphs) pour la représentation des données du Web, puis le langage de requête ASK adapté à ces structures pour l'extraction des données pertinentes. Nous proposons également un ensemble de règles d'enrichissement des requêtes ASK basé sur les relations ontologiques et les éléments propres aux ontologies adaptatives des ontologies représentant le domaine visé par la requête et celle représentant les vues des utilisateurs sur le domaine. Pour finir nous proposons un outil pour la gestion des ontologies adaptatives et la recherche d'information sur le Web ainsi qu'une validation expérimentale des concepts introduits. Cette dernière est basée sur un cas d'étude réaliste pour la recherche d'articles scientifiques publiés à la conférence internationale World Wide Web.
Fichier principal
Vignette du fichier
PhD_CP_FinalVersion.pdf (1.8 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00433071 , version 1 (18-11-2009)

Identifiants

  • HAL Id : tel-00433071 , version 1

Citer

Cédric Pruski. Une approche adaptative pour la recherche d'information sur le Web. Interface homme-machine [cs.HC]. Université Paris Sud - Paris XI; université du Luxembourg, 2009. Français. ⟨NNT : ⟩. ⟨tel-00433071⟩
308 Consultations
873 Téléchargements

Partager

Gmail Facebook X LinkedIn More