Vitesse de convergence et borne d'erreur pour l'algorithme LSTD($\lambda$)

Manel Tagorti; Bruno Scherrer

Communication Dans Un Congrès Année : 2014

Vitesse de convergence et borne d'erreur pour l'algorithme LSTD($\lambda$)

(1) , (1)

Manel Tagorti

Fonction : Auteur
PersonId : 948730

Autonomous intelligent machine

Bruno Scherrer

Fonction : Auteur
PersonId : 1406
IdHAL : bruno-scherrer
IdRef : 073360708

Autonomous intelligent machine

Résumé

On considère l'algorithme LSTD($\lambda$) (least-squares temporal-difference) avec traces d'éligibilité proposé par Boyan (2002). Cet algorithme renvoie, pour une politique fixée, une approximation linéaire de la fonction de valeur $v$ pour les processus décisionnels de Markov admettant un grand espace d'états. On se restreint dans cet article au cas des chaînes de Markov $\beta$-mélangeantes. Sous cette hypothèse, on estime la vitesse de convergence de cet algorithme pour n'importe quelle valeur de $\lambda\in(0,1)$. La borne d'erreur obtenue étend et améliore celle introduite par Lazaric et al. (2012) pour le cas $\lambda=0$. L'analyse proposée permet de quantifier l'influence du paramètre $\lambda$, de l'espace linéaire de projection et du nombre d'échantillons utilisés.

Domaines

Apprentissage [cs.LG] Intelligence artificielle [cs.AI] Optimisation et contrôle [math.OC] Machine Learning [stat.ML]

Fichier principal

tagorti-manel.pdf (403.1 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Bruno Scherrer : Connectez-vous pour contacter le contributeur

https://inria.hal.science/hal-00990508

Soumis le : mardi 13 mai 2014-15:41:01

Dernière modification le : lundi 8 avril 2024-10:32:52

Archivage à long terme le : lundi 10 avril 2017-22:27:03

Dates et versions

hal-00990508 , version 1 (13-05-2014)

Identifiants

HAL Id : hal-00990508 , version 1

Citer

Manel Tagorti, Bruno Scherrer. Vitesse de convergence et borne d'erreur pour l'algorithme LSTD($\lambda$). JFPDA - 9èmes Journées Francophones sur la Planification, la Décision et l'Apprentissage pour la conduite de systèmes, May 2014, Liège, Belgique. ⟨hal-00990508⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

CNRS INRIA UNIV-LORRAINE INRIA2 TDS-MACS LORIA LORIA-AIS

229 Consultations

385 Téléchargements

Vitesse de convergence et borne d'erreur pour l'algorithme LSTD($\lambda$)

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager