Reinforcement Learning Approaches in Dynamic Environments

Miyoung Han

Résumé

Reinforcement learning is learning from interaction with an environment to achieve a goal. It is an efficient framework to solve sequential decision-making problems, using Markov decision processes (MDPs) as a general problem formulation. In this thesis, we apply reinforcement learning to sequential decision-making problems in dynamic environments. We first present an algorithm based on Q-learning with a customized exploration and exploitation strategy to solve a real taxi routing problem. Our algorithm is able to progressively learn optimal actions for routing an autonomous taxi to passenger pick-up points. Then, we address the factored MDP problem in a non-deterministic setting. We propose an algorithm that learns transition functions using the Dynamic Bayesian Network formalism. We demonstrate that factorization methods allow to efficiently learn correct models; through the learned models, the agent can accrue higher cumulative rewards. We extend our work to very large domains. In the focused crawling problem, we propose a new scoring mechanism taking into account long-term effects of selecting a link, and present new feature representations of states for Web pages and actions for next link selection. This approach allowed us to improve on the efficiency of focused crawling. In the influence maximization (IM) problem, we extend the classical IM problem with incomplete knowledge of graph structure and topic-based user interest. Our algorithm finds the most influential seeds to maximize topic-based influence by learning action values for each probed node.

L’apprentissage par renforcement consiste en apprendre de l’interaction avec un environnement pour atteindre un but. C’est un cadre efficace pour résoudre les problèmes de décision séquentiels, basée sur l’utilisation des processus de décision de Markov (MDP) comme formulation générale. Dans cette thèse, nous appliquons l’apprentissage par renforcement à des problèmes de décision séquentiels dans des environnements dynamiques. Nous présentons d’abord un algorithme basé sur le Q-apprentissage avec une stratégie personnalisée d’exploration et d’exploitation pour résoudre un problème réel de routage de taxi. Notre algorithme est capable d’apprendre progressivement les actions optimales pour acheminer un taxi autonome aux points de collecte des passagers. Ensuite, nous abordons le problème des MDP factorisés dans un contexte non-déterministe. Nous proposons un algorithme qui apprend les fonctions de transition en utilisant le formalisme des réseaux bayésiens dynamiques. Nous démontrons que les méthodes de factorisation permettent d’apprendre efficacement des modèles corrects ; à travers les modèles appris, l’agent peut accumuler des récompenses cumulatives plus grandes. Nous étendons notre travail à de très grands domaines. Dans le problème de parcours du Web ciblé (focused crawling), nous proposons un nouveau mécanisme de score prenant en compte les effets à long terme de la sélection d’un lien, et présentant de nouvelles représentations des caractéristiques des états pour les pages Web et les actions de sélection du lien suivant. Cette approche nous a permis d’améliorer l’efficacité du parcours du Web ciblé. Dans le problème de maximisation de l’influence (MI), nous étendons le problème de la MI classique avec une connaissance incomplète de la structure du graphe et un intérêt utilisateur basé sur le sujet. Notre algorithme trouve les graines les plus influentes pour maximiser l’influence dépendante du sujet, en apprenant des valeurs d’action pour chaque nœud sondé.

Reinforcement Learning Approaches in Dynamic Environments

Approches d'apprentissage par renforcement dans les environnements dynamiques

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager