Modeling the Long Term Future in Model-Based Reinforcement Learning

Sep 2018

Modeling the Long Term Future in Model-Based Reinforcement Learning

Sep 2018

Dans l’apprentissage par renforcement basé sur un modèle, l’agent s’intercale entre l’apprentissage du modèle et la planification. Ces deux composants sont inextricablement liés. Si le modèle n’est pas en mesure de fournir une prévision raisonnable à long terme, la raboteuse exécutée exploitera les failles du modèle, ce qui peut entraîner des défaillances catastrophiques. Ce document se concentre sur la construction d’un modèle qui raisonne pour l’avenir à long terme et montre comment l’utiliser pour une planification et une exploration efficace. À cette fin, nous construisons un modèle autorégressif à variable latente en exploitant les idées récentes en inférence variationnelle. Nous soutenons que le fait de forcer les variables latentes à transmettre des informations futures via une tâche auxiliaire améliore considérablement les prévisions à long terme. De plus, en planifiant dans l’espace latent, la solution du planificateur est assurée d’être dans les régions où le modèle est valide. Une stratégie d’exploration peut être conçue en recherchant des trajectoires improbables dans le modèle. Nos méthodes permettent d’obtenir une récompense de manière plus rapide que les niveaux de base pour une variété de tâches et d’environnements, autant au sein d’un cadre d’apprentissage par imitation que dans un cadre d’apprentissage par renforcement basés sur un modèle.

Reference

https://openreview.net/forum?id=SkgQBn0cF7

Linked Profiles