Vitesse de convergence et borne d'erreur pour l'algorithme LSTD($\lambda$) - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Communication Dans Un Congrès Année : 2014

Vitesse de convergence et borne d'erreur pour l'algorithme LSTD($\lambda$)

Manel Tagorti
  • Fonction : Auteur
  • PersonId : 948730
Bruno Scherrer

Résumé

On considère l'algorithme LSTD($\lambda$) (least-squares temporal-difference) avec traces d'éligibilité proposé par Boyan (2002). Cet algorithme renvoie, pour une politique fixée, une approximation linéaire de la fonction de valeur $v$ pour les processus décisionnels de Markov admettant un grand espace d'états. On se restreint dans cet article au cas des chaînes de Markov $\beta$-mélangeantes. Sous cette hypothèse, on estime la vitesse de convergence de cet algorithme pour n'importe quelle valeur de $\lambda\in(0,1)$. La borne d'erreur obtenue étend et améliore celle introduite par Lazaric et al. (2012) pour le cas $\lambda=0$. L'analyse proposée permet de quantifier l'influence du paramètre $\lambda$, de l'espace linéaire de projection et du nombre d'échantillons utilisés.
Fichier principal
Vignette du fichier
tagorti-manel.pdf (403.1 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

hal-00990508 , version 1 (13-05-2014)

Identifiants

  • HAL Id : hal-00990508 , version 1

Citer

Manel Tagorti, Bruno Scherrer. Vitesse de convergence et borne d'erreur pour l'algorithme LSTD($\lambda$). JFPDA - 9èmes Journées Francophones sur la Planification, la Décision et l'Apprentissage pour la conduite de systèmes, May 2014, Liège, Belgique. ⟨hal-00990508⟩
229 Consultations
385 Téléchargements

Partager

Gmail Facebook X LinkedIn More