Fitted Q-iteration in continuous action-space MDPs

Andras Antos; Rémi Munos; Csaba Szepesvari

Rapport (Rapport Technique) Année : 2007

Fitted Q-iteration in continuous action-space MDPs

(1) , (2) , (3)

1
2
3

Andras Antos

Fonction : Auteur
PersonId : 844056

Computer and Automation Research Institute [Budapest]

Rémi Munos

Fonction : Auteur
PersonId : 836863

Sequential Learning

Csaba Szepesvari

Fonction : Auteur
PersonId : 844057

Department of Computing Science [Edmonton]

Résumé

We consider continuous state, continuous action batch reinforcement learning where the goal is to learn a good policy from a sufficiently rich trajectory generated by some policy. We study a variant of fitted Q-iteration, where the greedy action selection is replaced by searching for a policy in a restricted set of candidate policies by maximizing the average action values. We provide a rigorous analysis of this algorithm, proving what we believe is the first finite-time bound for value-function based algorithms for continuous state and action problems.

Domaines

Apprentissage [cs.LG]

Fichier principal

rlca.pdf (370.43 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Rémi Munos : Connectez-vous pour contacter le contributeur

https://inria.hal.science/inria-00185311

Soumis le : mardi 8 janvier 2008-16:52:29

Dernière modification le : vendredi 24 mars 2023-14:52:49

Archivage à long terme le : mardi 21 septembre 2010-15:52:39

Dates et versions

inria-00185311 , version 1 (05-11-2007)

inria-00185311 , version 2 (08-01-2008)

Identifiants

HAL Id : inria-00185311 , version 2

Citer

Andras Antos, Rémi Munos, Csaba Szepesvari. Fitted Q-iteration in continuous action-space MDPs. [Technical Report] 2007, pp.24. ⟨inria-00185311v2⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-LILLE3 CNRS INRIA LAGIS INRIA2 LARA

458 Consultations

777 Téléchargements

Fitted Q-iteration in continuous action-space MDPs

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager