Mila > Publication > Safe Policy Improvement with Baseline Bootstrapping

Safe Policy Improvement with Baseline Bootstrapping

Déc 2017

Safe Policy Improvement with Baseline Bootstrapping

Déc 2017

Cet article traite de l’amélioration de la sécurité des politiques dans l’apprentissage par renforcement en batch (Batch RL): à partir d’un jeu de données fixe et sans accès direct au véritable environnement, formez une stratégie dont les performances sont garanties d’être minimalement égales à celles de la stratégie de base utilisée pour la collecte de données. Notre approche, appelée SPI avec Baseline Bootstrapping (SPIBB), s’inspire du paradigme du savoir-faire: elle amorce la politique formée avec la base lorsque l’incertitude est grande. Notre premier algorithme, b-SPIBB, vient avec les garanties théoriques de SPI. Nous implémentons également une variante,Π≤b-SPIBB, encore plus efficace dans la pratique. Nous appliquons nos algorithmes à un domaine gridworld de motivation stochastique et démontrons en outre sur des MDP générés aléatoirement la supériorité de SPIBB par rapport aux algorithmes existants, non seulement en termes de sécurité, mais également en termes de performances moyennes. Enfin, nous implémentons une version sans modèle de SPIBB et montrons ses avantages sur une tâche de navigation avec implémentation de RL approfondie appelée SPIBB-DQN, qui est, à notre connaissance, le premier algorithme de RL reposant sur une représentation de réseau neuronal capable de former efficacement et de manière fiable à partir des données de la batch, sans aucune interaction avec l’environnement.

Reference

Linked Profiles