Recommandation Diversifiée et Distribuée pour les Données Scientifiques

Maximilien Servajean

Résumé

Recommendation is becoming a popular mechanism to help users find relevant information in large-scale data (scientific data, web). Different diversification techniques have been proposed to avoid redundancy in the process of recommendation. Intuitively, the goal of recommendation diversification is to identify a list of items that are dissimilar, but nonetheless relevant to the user's interests. In the first part of this thesis, the main goal was to define a new diversified search and recommendation solution suited for scientific data (i.e. plant phenotyping, botanical data). We first proposed an original profile diversification scoring function that enables to address the problem of returning redundant items, and enhances the quality of diversification compared to the state-of-the-art solutions. We believe our work is the first to investigate profile diversity to address the problem of returning highly popular but too-focused items.Through experimental evaluation using two benchmarks we showed that our scoring function presents the best compromise between diversity and relevancy. Next, to implement our new scoring function we proposed a Top-k threshold-based algorithm that exploits a candidate list to achieve diversification. However this algorithm is greedy and does not scale up well.To overcome this limitation, we proposed several techniques to improve performance. First, we simplified the scoring model to reduce its computational complexity. Second, we proposed two techniques to reduce the number of items in the candidate list, and therefore the number of diversified scores to compute. Third, we proposed different indexing scores (i.e. the score used to sort the items in the inverted lists) that take into account the diversification of items, and using them, we developed an adaptive indexing approach to reduce the number of accesses in the index dynamically based on the queries workload. We evaluated the performance of our techniques through experimentation. The results show that they enable to reduce the response time up to 12 times compared to a baseline greedy diversification algorithm. In the second part of the thesis, we addressed the problem of distributed and diversified recommendation (P2P and multi-site) that fits very well in different application scenarios. We proposed a new scoring function (usefulness) to cluster relevant users over a distributed overlay. We analyzed the new clustering algorithm in details, and we studied its behavior with an experimental evaluation using different datasets. Compared with state-of-the-art solutions, we obtain major gains in recall (order of 3 times).

La recommandation est devenue un mécanisme pour populaire afin d'aider les utilisateurs à retrouver des données pertinentes à grande échelle (e.g. données scientifiques, Web). De plus, différentes techniques de diversifications ont été proposées afin d'éviter les redondances des résultats dans le processus de recommandation. Intuitivement, l'objectif de cette diversification est de retourner à l'utilisateur une liste d'éléments qui sont à la fois dissimilaires, mais également pertinents étant donnés les intérêts de l'utilisateur. Dans la première partie de cette thèse, l'objectif principal a été de définir une nouvelle solution de recherche et de recommandation diversifiée adaptée aux données scientifiques (i.e. données de phénotypage, données de botanique). Nous avons ainsi proposé, dans un premier temps, la notion de diversification des profils qui permet de résoudre le problème consistant à retourner des objets (i.e. items) trop redondants, et améliore la qualité de la diversification par rapport à l'état de l'art. Nous pensons que ce travail est le premier à aborder la diversité des profils pour éviter d'avoir des objets très pertinents mais également trop spécialisés. Au travers d'une évaluation expérimentale via deux jeux de données, nous avons montré que notre fonction de score présente le meilleur compromis entre diversité et pertinence. Afin de mettre en œuvre notre nouvelle fonction de score, nous avons proposé un algorithme Top-k basé sur un seuil qui exploite la notion de liste de candidats afin de calculer la diversification. Cependant, cet algorithme est gourmand et ne s'adapte pas bien à l'échelle. Pour cela, nous avons également proposé plusieurs techniques d'optimisation afin d'améliorer les performances. Tout d'abord, nous avons simplifié le modèle de score pour réduire sa complexité de calcul. Deuxièmement, nous avons proposé deux techniques pour réduire le nombre d'éléments dans la liste de candidats, et donc, le nombre de score diversifiés à calculer. Enfin, nous avons proposé différents scores d'indexation (i.e. le score utilisé pour trier les éléments dans les listes inversées) qui prennent en compte la diversification des objets, scores que nous avons utilisés pour développer une approche d'indexation adaptative utile afin de limiter le nombre d'accès dans les index et basée sur l'ensemble des requêtes soumises au système (i.e. queries workload). Nous avons évalué la performance de nos techniques de manière expérimentale. Les résultats montrent que nos optimisations peuvent réduire le temps de réponse jusqu'à un facteur 12 par rapport à un algorithme de diversification basique. Dans la deuxième partie de la thèse, nous avons abordé le problème de la recommandation distribuée et diversifiée (P2P et multi-site) qui s'adapte très bien à nos différents scénarios d'application. Nous avons proposé une nouvelle fonction de score (usefulness ou utilité) permettant de regrouper les utilisateurs pertinents présents dans le recouvrement distribué. Nous avons analysé le nouvel algorithme de regroupement correspondant en détail, et nous avons étudié son comportement avec une évaluation expérimentale utilisant différents jeux de données. Par rapport à l'état des solutions de l'art, nous obtenons des gains importants en termes de rappel (ordre de 3 fois).

Diversified and Distributed Recommendation for Scientific Data

Recommandation Diversifiée et Distribuée pour les Données Scientifiques

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager