Separating value functions across time-scales

Fév 2019

Separating value functions across time-scales

Fév 2019

Dans de nombreux paramètres d’apprentissage par renforcement épisodique à horizon fini, il est souhaitable d’optimiser le retour non actualisé. Dans des paramètres tels qu’Atari, par exemple, l’objectif est de collecter le plus de points tout en restant en vie à long terme. Pourtant, il peut être difficile (ou même insoluble) mathématiquement d’apprendre avec cette cible. En tant que tel, l’actualisation temporelle est souvent appliquée pour optimiser sur un horizon de planification efficace plus court. Cela risque de détourner potentiellement la cible d’optimisation de l’objectif non actualisé. Dans les contextes où ce biais est inacceptable – où le système doit optimiser pour des horizons plus longs avec des remises plus importantes – la cible de l’approximateur de la fonction de valeur peut augmenter en variance, entraînant des difficultés d’apprentissage. Nous présentons une extension de l’apprentissage par différence temporelle (TD), que nous appelons TD (Δ), qui décompose une fonction de valeur en une série de composants basés sur les différences entre les fonctions de valeur avec des facteurs de réduction plus faibles. La séparation d’une fonction de valeur d’horizon plus longue entre ces composants présente des propriétés utiles en termes d’évolutivité et de performance. Nous discutons de ces propriétés et montrons des améliorations théoriques et empiriques par rapport à l’apprentissage TD standard dans certaines mises en situation.

Reference

Linked Profiles