Leveraging exploration in off-policy algorithms via normalizing flows

Apprentissage par Renforcement
Oct 2019

Leveraging exploration in off-policy algorithms via normalizing flows

Oct 2019

La capacité à découvrir des stratégies approximativement optimales dans des domaines à récompenses limitées est cruciale pour appliquer l’apprentissage par renforcement (LR) dans de nombreux scénarios. Des approches telles que les modèles de densité neuronale et l’exploration continue (par exemple, Go-Explore) ont été proposées pour maintenir le taux d’exploration élevé nécessaire à la recherche de stratégies performantes et généralisables. Soft actor-critic (SAC) est une autre méthode d’amélioration de l’exploration qui vise à combiner un apprentissage efficace via des mises à jour non conformes aux règles, tout en maximisant l’entropie des règles. Dans ce travail, nous étendons SAC à une classe plus riche de distributions de probabilités (par exemple, multimodale) en normalisant les flux (NF) et montrons que cela améliore considérablement les performances en accélérant la découverte de bonnes stratégies tout en utilisant des représentations de politique beaucoup plus petites. Notre approche, que nous appelons SAC-NF, consiste en une modification et une amélioration simples et efficaces de SAC sur des lignes de base de contrôle continu telles que les domaines MuJoCo et PyBullet Roboschool. Enfin, SAC-NF le fait avec une efficacité significative en termes de paramètres, en utilisant aussi peu que 5,5% des paramètres d’un modèle SAC équivalent.

Bogdan Mazoure, Thang Doan, Audrey Durand, Joelle Pineau, R Devon Hjelm. Leveraging exploration in off-policy algorithms via normalizing flows, 2019.

 

Reference

Linked Profiles