The Value Function Polytope in Reinforcement Learning

Jan 2019

The Value Function Polytope in Reinforcement Learning

Jan 2019

Nous établissons les propriétés géométriques et topologiques de l’espace des fonctions de valeur dans les processus de décision de Markov à états et actions finis. Notre contribution principale est la caractérisation de la nature de sa forme: un polytope général (Aigner et al., 2010). Pour démontrer ce résultat, nous présentons plusieurs propriétés de la relation structurelle entre les politiques et les fonctions de valeur, notamment le théorème de la ligne, qui montre que les fonctions de valeur des politiques influent sur tous les états sauf un, qui est représenté par un segment de ligne. Enfin, nous utilisons cette nouvelle perspective pour introduire des visualisations afin d’améliorer la compréhension de la dynamique des algorithmes d’apprentissage par renforcement.

Reference

Linked Profiles