Planning in entropy-regularized Markov decision processes and games - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Communication Dans Un Congrès Année : 2019

Planning in entropy-regularized Markov decision processes and games

Jean-Bastien Grill
  • Fonction : Auteur
  • PersonId : 972490
Pierre Ménard
  • Fonction : Auteur
  • PersonId : 1022182
Rémi Munos
  • Fonction : Auteur
  • PersonId : 836863
Michal Valko

Résumé

We propose SmoothCruiser, a new planning algorithm for estimating the value function in entropy-regularized Markov decision processes and two-player games, given a generative model of the environment. SmoothCruiser makes use of the smoothness of the Bellman operator promoted by the regularization to achieve problem-independent sample complexity of order O(1/ε 4) for a desired accuracy ε, whereas for non-regularized settings there are no known algorithms with guaranteed polynomial sample complexity in the worst case.
Fichier principal
Vignette du fichier
smoothcruiser2019.pdf (555.21 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-02387515 , version 1 (29-11-2019)

Identifiants

  • HAL Id : hal-02387515 , version 1

Citer

Jean-Bastien Grill, Omar D Domingues, Pierre Ménard, Rémi Munos, Michal Valko. Planning in entropy-regularized Markov decision processes and games. Neural Information Processing Systems, 2019, Vancouver, Canada. ⟨hal-02387515⟩
77 Consultations
422 Téléchargements

Partager

Gmail Facebook X LinkedIn More