Apprentissage off-policy appliqué à un système de dialogue basé sur les PDMPO - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Autre Publication Scientifique Année : 2012

Apprentissage off-policy appliqué à un système de dialogue basé sur les PDMPO

Résumé

L'apprentissage par renforcement (AR) fait maintenant partie de l'état de l'art dans le domaine de l'optimisation de système de dialogues vocaux. La plupart des méthodes appliquées aux systèmes de dialogue basées sur l'AR, comme par exemple celles qui utilisent des processus gaussiens, requièrent de tester des changements plus ou moins aléatoires dans la politique. Cette manière de procéder est appelée apprentissage " onpolicy ". Néanmoins, celle-ci peut induire des comportements de la part du système incohérents aux yeux de l'utilisateur. Les algorithmes devraient idéalement trouver la politique optimale d'après l'observation d'interactions générées par une politique sous-optimale mais proposant un comportement cohérent à l'utilisateur : c'est l'apprentissage " off-policy ". Dans cette contribution, un algorithme efficace sur les échantillons permettant l'apprentissage off-policy et en ligne la politique optimale est proposé. Cet algorithme combiné à une représentation compacte, non-linéaire de la fonction de valeur (un perceptron multicouche) permet de gérer des systèmes à grande échelle.
Fichier principal
Vignette du fichier
RFIA_2012_LDMGOP.pdf (223.56 Ko) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

hal-00656997 , version 1 (05-01-2012)

Identifiants

  • HAL Id : hal-00656997 , version 1

Citer

Lucie Daubigney, Matthieu Geist, Olivier Pietquin. Apprentissage off-policy appliqué à un système de dialogue basé sur les PDMPO. Actes du 18ème congrès francophone sur la Reconnaissance de Formes et l'Intelligence Artificielle (RFIA 2012), 2012, pp.1-8. ⟨hal-00656997⟩
232 Consultations
395 Téléchargements

Partager

Gmail Facebook X LinkedIn More