Apprentissage off-policy appliqué à un système de dialogue basé sur les PDMPO

Lucie Daubigney; Matthieu Geist; Olivier Pietquin

Autre Publication Scientifique Année : 2012

Apprentissage off-policy appliqué à un système de dialogue basé sur les PDMPO

(1, 2) , (2) , (2)

1
2

Lucie Daubigney

Fonction : Auteur
PersonId : 908990

Autonomous intelligent machine

IMS : Information, Multimodalité & Signal

Matthieu Geist

Fonction : Auteur
PersonId : 6945
IdHAL : matthieu-geist

IMS : Information, Multimodalité & Signal

Olivier Pietquin

Fonction : Auteur
PersonId : 4024
IdHAL : olivier-pietquin
ORCID : 0000-0002-5386-465X
IdRef : 142821861

IMS : Information, Multimodalité & Signal

Résumé

L'apprentissage par renforcement (AR) fait maintenant partie de l'état de l'art dans le domaine de l'optimisation de système de dialogues vocaux. La plupart des méthodes appliquées aux systèmes de dialogue basées sur l'AR, comme par exemple celles qui utilisent des processus gaussiens, requièrent de tester des changements plus ou moins aléatoires dans la politique. Cette manière de procéder est appelée apprentissage " onpolicy ". Néanmoins, celle-ci peut induire des comportements de la part du système incohérents aux yeux de l'utilisateur. Les algorithmes devraient idéalement trouver la politique optimale d'après l'observation d'interactions générées par une politique sous-optimale mais proposant un comportement cohérent à l'utilisateur : c'est l'apprentissage " off-policy ". Dans cette contribution, un algorithme efficace sur les échantillons permettant l'apprentissage off-policy et en ligne la politique optimale est proposé. Cet algorithme combiné à une représentation compacte, non-linéaire de la fonction de valeur (un perceptron multicouche) permet de gérer des systèmes à grande échelle.

Domaines

Apprentissage [cs.LG]

Fichier principal

RFIA_2012_LDMGOP.pdf (223.56 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Sébastien Van Luchene : Connectez-vous pour contacter le contributeur

https://centralesupelec.hal.science/hal-00656997

Soumis le : jeudi 5 janvier 2012-16:17:04

Dernière modification le : lundi 11 septembre 2023-17:41:18

Archivage à long terme le : lundi 19 novembre 2012-12:30:27

Dates et versions

hal-00656997 , version 1 (05-01-2012)

Identifiants

HAL Id : hal-00656997 , version 1

Citer

Lucie Daubigney, Matthieu Geist, Olivier Pietquin. Apprentissage off-policy appliqué à un système de dialogue basé sur les PDMPO. Actes du 18ème congrès francophone sur la Reconnaissance de Formes et l'Intelligence Artificielle (RFIA 2012), 2012, pp.1-8. ⟨hal-00656997⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

SUPELEC CNRS INRIA CENTRALESUPELEC UNIV-LORRAINE INRIA2 LORIA LORIA-AIS

232 Consultations

395 Téléchargements

Apprentissage off-policy appliqué à un système de dialogue basé sur les PDMPO

Résumé

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager