Per-Decision Option Discounting

Fév 2019

Per-Decision Option Discounting

Fév 2019

Pour résoudre des problèmes complexes, un agent doit être capable de raisonner sur un horizon suffisamment long. Abstraction temporelle, couramment modelée à travers les options, offre la possibilité de raisonner à plusieurs échelles de temps, mais la longueur de l’horizon est encore déterminé par le facteur d’actualisation du processus de décision de Markov sous-jacent. Nous proposons une modification du cadre des options qui redéfinit naturellement l’horizon de l’agent avec la longueur des options. Nous montrons que la réduction d’option proposée contrôle un compromis biais-variance, avec des remises plus importantes (contre-intuitivement) entraînant une moins grande variance d’estimation.

Reference

Linked Profiles