Recall Traces: Backtracking Models for Efficient Reinforcement Learning

Sep 2018

Recall Traces: Backtracking Models for Efficient Reinforcement Learning

Sep 2018

Dans de nombreux environnements, seul un petit sous-ensemble de tous les états rapporte beaucoup. Dans ces cas, il est rare que des interactions avec l’environnement fournissent un signal d’apprentissage pertinent. Par conséquent, nous voudrons peut-être nous entraîner de manière préférentielle sur les états de récompense élevées et les trajectoires probables les conduisant.

À cette fin, nous préconisons l’utilisation d’un modèle \ textit {backtracking} qui prédit les états précédents qui se terminent à un état donné de haute récompense. Nous pouvons former un modèle qui, à partir d’un état de valeur élevée (ou dont on estime qu’il a une valeur élevée), prédire et échantillonner les tuples (d’état ou d’action) qui peuvent avoir conduit à cet état de valeur élevée. Ces traces de paires (d’état ou d’action), appelées Traces de Rappel, échantillonnées à partir de ce modèle de retour en arrière partant d’un état de valeur élevée, sont informatives car elles se terminent par de bons états et nous pouvons donc utiliser ces traces pour améliorer une politique. Nous fournissons une interprétation variationnelle de cette idée et un algorithme pratique dans lequel le modèle de retour en arrière échantillonne une distribution approximative postérieure sur des trajectoires conduisant à de grandes récompenses. Notre méthode améliore l’efficacité de l’échantillon des algorithmes RL avec ou sans stratégie dans plusieurs environnements et tâches.

Reference

https://openreview.net/forum?id=HygsfnR9Ym

Linked Profiles