Near-Optimal Algorithms for Sequential Information-Gathering Decision Problems

Mauricio Araya-López

Thèse Année : 2013

Near-Optimal Algorithms for Sequential Information-Gathering Decision Problems

Des algorithmes presque optimaux pour les problèmes de décision séquentielle à des fins de collecte d'information

(1)

Mauricio Araya-López

Fonction : Auteur
PersonId : 881106

Autonomous intelligent machine

Résumé

The MDP formalism and its variants are usually used to control the state of a system through an agent and its policy. When the agent confronts incomplete information, its policy can perform actions to gather information, such as in (1) the partially observable state case, or in (2) the reinforcement learning scenario. However, the acquired information is only a means to better control the system state, so the information gathering is only a consequence of maximizing the expected return. On the contrary, the purpose of this dissertation is to study sequential decision problems where acquiring information is an end in itself. More precisely, it fi rst covers the question of how to modify the POMDP formalism to model information-gathering problems and which algorithms to use for solving them. This idea is then extended to reinforcement learning problems where the objective is to actively learn the model of the system. Also, this dissertation proposes a novel Bayesian reinforcement learning algorithm that uses optimistic local transitions to efficiently gather information while optimizing the expected return. Through bibliographic discussions, theoretical results and empirical studies, it is shown that these information-gathering problems are optimally solvable in theory, that the proposed methods are near-optimal solutions, and that these methods off er comparable or better results than reference approaches. Beyond these specific results, this dissertation paves the way (1) for understanding the relationship between information-gathering and optimal policies in sequential decision processes, and (2) for extending the large body of work about system state control to information-gathering problems.

Le formalisme des MDP, comme ses variantes, sert typiquement à contrôler l'état d'un système par l'intermédiaire d'un agent et de sa politique. Lorsque l'agent fait face à des informations incomplètes, sa politique peut eff ectuer des actions pour acquérir de l'information typiquement (1) dans le cas d'une observabilité partielle, ou (2) dans le cas de l'apprentissage par renforcement. Toutefois cette information ne constitue qu'un moyen pour contrôler au mieux l'état du système, de sorte que la collecte d'informations n'est qu'une conséquence de la maximisation de la performance escomptée. Cette thèse s'intéresse au contraire à des problèmes de prise de décision séquentielle dans lesquels l'acquisition d'information est une fin en soi. Plus précisément, elle cherche d'abord à savoir comment modi fier le formalisme des POMDP pour exprimer des problèmes de collecte d'information et à proposer des algorithmes pour résoudre ces problèmes. Cette approche est alors étendue à des tâches d'apprentissage par renforcement consistant à apprendre activement le modèle d'un système. De plus, cette thèse propose un nouvel algorithme d'apprentissage par renforcement bayésien, lequel utilise des transitions locales optimistes pour recueillir des informations de manière e fficace tout en optimisant la performance escomptée. Grâce à une analyse de l'existant, des résultats théoriques et des études empiriques, cette thèse démontre que ces problèmes peuvent être résolus de façon optimale en théorie, que les méthodes proposées sont presque optimales, et que ces méthodes donnent des résultats comparables ou meilleurs que des approches de référence. Au-delà de ces résultats concrets, cette thèse ouvre la voie (1) à une meilleure compréhension de la relation entre la collecte d'informations et les politiques optimales dans les processus de prise de décision séquentielle, et (2) à une extension des très nombreux travaux traitant du contrôle de l'état d'un système à des problèmes de collecte d'informations.

Mots clés

Information Gathering Optimistic Transitions Bayesian Reinforcement Learning MDP Model Learning Sequential Decision Problems Bayesian Models

collecte d'informations transitions optimistes POMDP apprentissage par renforcement bayésien apprentissage du modèle d'un MDP problèmes de prise de décision séquentielle modèles bayésiens

Domaines

Intelligence artificielle [cs.AI] Apprentissage [cs.LG]

Fichier principal

thesis-maraya-official-version.pdf (3.55 Mo)

Olivier Buffet : Connectez-vous pour contacter le contributeur

https://theses.hal.science/tel-01749452

Soumis le : vendredi 7 février 2014-17:07:05

Dernière modification le : jeudi 1 février 2024-10:03:35

Archivage à long terme le : lundi 12 mai 2014-12:20:38

Dates et versions

tel-01749452 , version 2 (07-02-2014)

tel-01749452 , version 1 (29-03-2018)

Identifiants

HAL Id : tel-01749452 , version 2

Citer

Mauricio Araya-López. Near-Optimal Algorithms for Sequential Information-Gathering Decision Problems. Artificial Intelligence [cs.AI]. Université de Lorraine, 2013. English. ⟨NNT : 2013LORR0002⟩. ⟨tel-01749452v2⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-RENNES1 CNRS INRIA IRISA UNIV-LORRAINE INRIA2 UR1-THESES LORIA LORIA-AIS UR1-MATH-STIC UR1-UFR-ISTIC THESES-UL UNIV-RENNES UR1-MATH-NUM

376 Consultations

367 Téléchargements

Near-Optimal Algorithms for Sequential Information-Gathering Decision Problems

Des algorithmes presque optimaux pour les problèmes de décision séquentielle à des fins de collecte d'information

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager