Understanding the impact of entropy on policy optimization

Nov 2018

Understanding the impact of entropy on policy optimization

Nov 2018

La régularisation par entropie est couramment utilisée pour améliorer l’optimisation des politiques dans l’apprentissage par renforcement. On pense qu’elle aide à explorer \ emph {exploration} en encourageant la sélection de politiques plus stochastiques. Dans ce travail, nous analysons cette affirmation à l’aide de nouvelles visualisations du paysage d’optimisation basées sur une perturbation aléatoire de la fonction de perte. Nous montrons d’abord que même avec l’accès au gradient exact, l’optimisation des politiques est difficile en raison de la géométrie de la fonction objectif. Ensuite, nous montrons qualitativement que, dans certains environnements, une stratégie avec une entropie élevée peut assouplir le paysage d’optimisation, connectant ainsi des optima locaux et permettant l’utilisation de vitesses d’apprentissage plus grandes. Cet article présente de nouveaux outils pour comprendre le paysage de l’optimisation, montre que l’entropie des règles sert de régularisateur et souligne le défi que représente la conception d’algorithmes d’optimisation de règles à usage général.

Reference

Linked Profiles