HSVI pour zs-POSG usant de propriétés de convexité, concavité, et Lipschitz-continuité - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Communication Dans Un Congrès Année : 2021

HSVI pour zs-POSG usant de propriétés de convexité, concavité, et Lipschitz-continuité

Résumé

Solving a 2-player zero-sum partially observable stochastic game (zs-POSG) typically relies on turning it into an extensive-form game, thus losing structural information contained in the original representation. We prevent such a loss by turning the problem instead into an occupancy Markov game, which allows building on state-of-the-art approaches for partially observable Markov decision processes, decentralized POMDPs, and a number of subclasses of zs-POSGs. To apply Bellman’s optimality principle in this setting, we (i) exhibit novel continuity properties of the optimal value function ; (ii) derive point-based bounding approximators ; and (iii) propose efficient backup operators based on linear programming. A variant of SMITH et SIMMONS’s (2005) HSVI algorithm is built on these ideas and we prove its finite-time convergence to an -optimal solution before presenting experimental results.
La résolution d'un jeu stochastique partiellement observable à 2 joueurs et somme nulle (zs-POSG) repose typiquement sur sa transformation en un jeu en forme extensive, perdant ainsi de l'information structurelle contenue dans la représentation originale. Nous évitons une telle perte en transformant le problème plutôt en un jeu de Markov sur les états d'occupation, ce qui permet de tirer parti d'approches de l'état de l'art pour les processus de décision markoviens partiellement observables, les POMDP décentralisés, et un certain nombre de sous-classes de zs-POSG. Pour appliquer le principe d'optimalité de Bellman dans ce cadre, nous (i) exhibons des propriétés de continuité originales de la fonction de valeur optimale ; (ii) dérivons des approximateurs encadrants à base de points ; et (iii) proposons des opérateurs de mise à jour efficaces reposant sur la programmation linéaire. Une variante de l'algorithm HSVI de SMITH et SIMMONS [23] est construite sur la base de ces idées et nous prouvons sa convergence vers une solution-optimale avant de présenter des résultats expérimentaux.
Fichier principal
Vignette du fichier
jfpda21.pdf (486.26 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-03523951 , version 1 (12-01-2022)

Identifiants

  • HAL Id : hal-03523951 , version 1

Citer

Aurélien Delage, Olivier Buffet, Jilles Dibangoye. HSVI pour zs-POSG usant de propriétés de convexité, concavité, et Lipschitz-continuité. JFPDA 2021 - Journées Francophones Planification, Décision et Apprentissage, Jun 2021, Bordeaux (virtuel), France. pp.1-14. ⟨hal-03523951⟩
37 Consultations
36 Téléchargements

Partager

Gmail Facebook X LinkedIn More