Modélisation de comportements et apprentissage stochastique non supervisé de stratégies d'interactions sociales au sein de systèmes temps réel de recherche et d'accès à l'information - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Thèse Année : 2008

Behavior modeling and stochastic unsupervised learning of strategies of social interactions within real time systems of research and access to information

Modélisation de comportements et apprentissage stochastique non supervisé de stratégies d'interactions sociales au sein de systèmes temps réel de recherche et d'accès à l'information

Résumé

Internet constitutes an unstructured, almost infinite, and evolutive environment supplying heterogeneous documents (also called "items" or "resources") through the Web and a set of associated services. As there is a huge number of documents on Internet, the search and access to data involve assisting the active user. However, the usual search engines come up to their limit. Search engines provide too many results to ensure that the active user will identify the most relevant items in a reasonable time. Supplying the active user with his/her concerns requires efficient data collection methods to model accurately user's preferences in a stochastic context. However, it is not always possible to fully model the user in time because it is a lengthy process. Collaborative filtering algorithms bypass this difficulty by exploiting knowledge about a similar population to complete missing data in the active user's model and to do preference elicitation. They amount to identifying the active user to a set of persons having the same tastes, based on his/her preferences and his/her past actions. This kind of algorithms considers that users who liked the same items have the same topics of interest. Thus, it is possible to predict the relevancy of data for the active user by taking advantage of experiences of a similar population.

In centralized collaborative filtering approaches, finding the closest neighbors among several thousands of candidates in real time without offline computations may be unrealistic. The scientific problem consequently consists, within the context of my thesis, in finding a way to distribute the collaborative filtering process in order to deal with scalability and other underlying constraints.
Internet constitue un environnement évolutif déstructuré et quasi-infini proposant des documents hétérogènes notamment à travers le Web et les intranets d'entreprises. La recherche et l'accès à cette profusion de documents nécessite d'assister l'utilisateur. Cependant, les outils actuels d'accès à l'information atteignent leur limite et ne garantissent plus d'identifier les ressources les plus pertinentes (également appelées "items") dans un temps raisonnable. La problématique consiste à "apprendre l'utilisateur courant". La connaissance de ce dernier permet au système de fournir des items susceptibles de les intéresser ou de répondre à un critère d'utilité. Il s'agit alors de collecter des données brutes pour caractériser une information de haut niveau, à savoir la connaissance de l'utilisateur. L'emploi de l'Intelligence Artificielle permet d'identifier les données nécessaires et suffisantes à l'apprentissage supervisé en situation de l'utilisateur courant.

Toutefois, les modèles utilisateurs souffrent d'un grand nombre de données manquantes. Notre approche consiste à exploiter collaborativement les données relatives à une population pour pallier le manque d'information inhérent à chaque utilisateur. L'emploi de techniques de filtrage collaboratif permet ainsi de bénéficier de l'expérience et des interactions au sein d'une population pour améliorer les services et prédire les futurs agissements d'un individu. Nous sommes partis du constat que, dans les approches centralisées, le nombre d'individus pris en compte dans la recherche des plus proches voisins ne peut excéder quelques milliers de candidats. Nos travaux nous ont donc conduit à distribuer le processus de filtrage sous plusieurs formes tant en terme de contenu que de calculs. L'objectif de cette thèse est de montrer comment il est possible d'assurer le passage à l'échelle, et faire face aux problèmes sous-jacents pouvant résulter de cette approche distribuée.
Fichier principal
Vignette du fichier
These-SylvainCastagnos.pdf (8.27 Mo) Télécharger le fichier
Loading...

Dates et versions

tel-00341470 , version 1 (25-11-2008)
tel-00341470 , version 2 (09-12-2008)

Identifiants

  • HAL Id : tel-00341470 , version 2

Citer

Sylvain Castagnos. Modélisation de comportements et apprentissage stochastique non supervisé de stratégies d'interactions sociales au sein de systèmes temps réel de recherche et d'accès à l'information. Modélisation et simulation. Université Nancy II, 2008. Français. ⟨NNT : ⟩. ⟨tel-00341470v2⟩
767 Consultations
1307 Téléchargements

Partager

Gmail Facebook X LinkedIn More