Off-Policy Deep Reinforcement Learning without Exploration

Déc 2018

Off-Policy Deep Reinforcement Learning without Exploration

Déc 2018

De nombreuses applications pratiques de l’apprentissage par renforcement contraignent les agents à apprendre d’un lot de données déjà collecté, sans offrir d’autres possibilités de collecte de données. Dans cet article, nous démontrons qu’en raison d’erreurs introduites par extrapolation, les algorithmes d’apprentissage par renforcement profond hors stratégie, tels que DQN et DDPG, sont incapables d’apprendre avec des données non corrélées à la distribution en vertu de la stratégie actuelle, ce qui les rend inefficaces pour ce réglage de lot fixe. Nous introduisons une nouvelle classe d’algorithmes hors stratégie, l’apprentissage par renforcement contraint par lots, qui restreint l’espace d’action afin de forcer l’agent à se comporter de manière proche de la stratégie en ce qui concerne un sous-ensemble des données fournies. Nous présentons le premier algorithme d’apprentissage par renforcement en profondeur avec contrôle continu, capable d’apprendre efficacement à partir de données de lot arbitraires et fixes et de démontrer de manière empirique la qualité de son comportement dans plusieurs tâches.

Reference

Linked Profiles