InfoBot: Transfer and Exploration via the Information Bottleneck

Sep 2018

InfoBot: Transfer and Exploration via the Information Bottleneck

Sep 2018

L’un des principaux défis de l’apprentissage par renforcement consiste à découvrir des politiques efficaces pour les tâches où les récompenses sont peu distribuées. Nous postulons qu’en l’absence de signaux de récompenses utiles, une stratégie d’exploration efficace devrait rechercher {/ses états de décision}. Ces états se situent à des jonctions critiques dans l’espace d’états à partir duquel l’agent peut passer au sein de nouvelles régions potentiellement inexplorées. Nous proposons d’en apprendre sur les états de décision à partir d’expériences antérieures. En formant un modèle conditionné par un objectif avec un goulot d’étranglement d’informations, nous pouvons identifier les états de décision en examinant où le modèle accède à l’état d’objectif par le biais du goulot d’étranglement. Nous constatons que ce mécanisme simple identifie efficacement les états de décision, même dans des contextes partiellement observés. En effet, le modèle apprend les signaux sensoriels en corrélation avec les sous-objectifs potentiels. Dans les nouveaux environnements, ce modèle peut ensuite identifier de nouveaux sous-objectifs à explorer, guidant l’agent au travers d’une séquence d’états de décision potentiels et de nouvelles régions de l’espace d’états.

Reference

https://openreview.net/forum?id=rJg8yhAqKm

Linked Profiles