Hierarchical POMDP

Reinforcement learning & Planning
Juil 2008

Hierarchical POMDP Controller Optimization by Likelihood Maximization

Juil 2008

La planification peut souvent être simplifiée en décomposant la tâche en tâches plus petites organisées hiérarchiquement. Charlin et al. [4] ont récemment montré que le problème de découverte de hiérarchie pouvait être considéré comme un problème d’optimisation non convexe. Cependant, la difficulté informatique inhérente à la résolution d’un tel problème d’optimisation rend difficile l’adaptation aux problèmes du monde réel. Dans un autre domaine de recherche, Toussaint et al. [18] ont développé une méthode pour résoudre les problèmes de planification par estimation du maximum de vraisemblance. Dans cet article, nous montrons comment résoudre le problème de découverte de hiérarchie dans des domaines partiellement observables en utilisant une approche similaire du maximum de vraisemblance. Notre technique transforme d’abord le problème en un réseau bayésien dynamique à travers lequel une structure hiérarchique peut naturellement être découverte tout en optimisant la politique. Les résultats expérimentaux démontrent que cette approche évolue mieux que les techniques précédentes basées sur une optimisation non convexe.

Reference

Marc Toussaint, Laurent Charlin, Pascal Poupart, Hierarchical POMDP Controller Optimization by Likelihood Maximization, in: Proceedings of the Twenty-Fourth Conference Annual Conference on Uncertainty in Artificial Intelligence, 2008

Linked Profiles