DeepMDP: Learning Continuous Latent Space Models for Representation Learning

Juin 2019

DeepMDP: Learning Continuous Latent Space Models for Representation Learning

Juin 2019

De nombreuses tâches d’apprentissage par renforcement fournissent à l’agent des observations de grande dimension pouvant être simplifiées en états continus de faible dimension. Pour formaliser ce processus, nous introduisons le concept de DeepMDP, un modèle d’espace latent paramétré qui est formé via la minimisation de deux pertes traitables: la prévision des récompenses et la prédiction de la distribution sur les prochains états latents. Nous montrons que l’optimisation de ces objectifs garantit (1) la qualité de l’espace latent en tant que représentation de l’espace d’état et (2) la qualité du DeepMDP en tant que modèle de l’environnement. Nous relions ces résultats à des travaux antérieurs dans la littérature sur la bisimulation et explorons l’utilisation de diverses mesures. Nos résultats théoriques sont corroborés par le résultat expérimental selon lequel un DeepMDP formé récupère la structure latente sous-jacente aux observations de grande dimension sur un environnement synthétique. Enfin, nous montrons que l’apprentissage d’un DeepMDP en tant que tâche auxiliaire dans le domaine Atari 2600 entraîne d’importantes améliorations des performances par rapport aux modèles sans RL.

Reference

Linked Profiles