BRL Quasi-Optimal à l'aide de Transitions Locales Optimistes - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Communication Dans Un Congrès Année : 2012

BRL Quasi-Optimal à l'aide de Transitions Locales Optimistes

Vincent Thomas
Olivier Buffet

Résumé

L'apprentissage par renforcement bayésien basé modèle (BRL) permet une formalisation saine du problème consistant à agir optimalement face à un environnement inconnu, c'est-à-dire en évitant le dilemme exploration-exploitation. Toutefois, les algorithmes s'attaquant explicitement au BRL souffrent d'une telle explosion combinatoire qu'un grand nombre de travaux repose sur des algorithmes heuristiques. Cet article introduit BOLT, un algorithme heuristique simple et (presque) déterministe pour le BRL qui est optimiste vis à vis de la fonction de transition. Nous analysons la complexité d'échantillon de BOLT et montrons que, pour certains paramètres, l'algorithme est quasi-optimal au sens bayésien avec une grande probabilité. Puis, des résultats expérimentaux mettent en valeur les principales différences entre cette méthode et des travaux antérieurs.
Fichier principal
Vignette du fichier
jfpda6.pdf (468.3 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-00735602 , version 1 (26-09-2012)

Identifiants

  • HAL Id : hal-00735602 , version 1

Citer

Mauricio Araya, Vincent Thomas, Olivier Buffet. BRL Quasi-Optimal à l'aide de Transitions Locales Optimistes. Journées Francophones sur la planification, la décision et l'apprentissage pour le contrôle des systèmes - JFPDA 2012, May 2012, Villers-lès-Nancy, France. 16 p. ⟨hal-00735602⟩
125 Consultations
64 Téléchargements

Partager

Gmail Facebook X LinkedIn More