Hyperbolic Discounting and Learning over Multiple Horizons

Apprentissage par Renforcement
Fév 2019

Hyperbolic Discounting and Learning over Multiple Horizons

Fév 2019

L’apprentissage par renforcement (RL) définit généralement un facteur de réduction dans le cadre du processus de décision de Markov. Le facteur d’escompte valorise les récompenses futures par un schéma exponentiel conduisant aux garanties de convergence théoriques de l’équation de Bellman. Cependant, des preuves issues de la psychologie, de l’économie et des neurosciences suggèrent que les humains et les animaux ont plutôt une préférence temporelle hyperbolique. Dans ce travail, nous revenons sur les principes fondamentaux de l’actualisation dans l’apprentissage par renforcement et comblons cette déconnexion en mettant en œuvre un agent RL qui agit via une actualisation hyperbolique. Nous démontrons qu’une approche simple se rapproche des fonctions de réduction hyperbolique tout en utilisant des techniques d’apprentissage bien connues de la différence temporelle dans RL. De plus, et indépendamment de l’actualisation hyperbolique, nous découvrons de manière surprenante qu’apprendre simultanément des fonctions de valeur sur plusieurs horizons temporels est une tâche auxiliaire efficace qui s’améliore souvent par rapport à un puissant agent RL basé sur la valeur, «Rainbow».

Reference

https://arxiv.org/abs/1902.06865

Linked Profiles