Mila > Publication > Generic Methods to Improve Training and Generalization > Recombinator Networks: Learning Coarse-to-Fine Feature Aggregation

Recombinator Networks

Generic Methods to Improve Training and Generalization
Nov 2015

Recombinator Networks: Learning Coarse-to-Fine Feature Aggregation

Nov 2015

Les réseaux neuronaux profonds avec des couches alternées de convolution, de max-pooling et de décimation sont largement utilisés dans les architectures de pointe pour la vision par ordinateur. La mise en pool maximal supprime délibérément des informations spatiales précises afin de créer des entités plus robustes, généralement organisées sous forme de cartes d’entités spatiales de résolution inférieure. Sur certaines tâches, telles que la classification de l’image entière, les fonctionnalités dérivées du pool maximal sont bien adaptées. Cependant, pour les tâches nécessitant une localisation précise, telles que la prédiction au niveau des pixels et la segmentation, le max-pooling détruit exactement les informations nécessaires à une bonne exécution. La localisation précise peut être préservée par des chaînes peu profondes sans regroupement, mais au détriment de la robustesse. Pouvons-nous avoir notre gâteau multi-couches max-pooled et le manger aussi? Plusieurs documents ont proposé des méthodes basées sur la sommation et la concaténation pour combiner des caractéristiques abstraites grossières et grossies avec des caractéristiques plus fines afin de produire des prédictions robustes au niveau des pixels. Nous introduisons ici un autre modèle – les réseaux de recombinateur – où les caractéristiques grossières informent les entités plus fines au début de leur formation, de telle sorte que les entités plus fines peuvent utiliser plusieurs couches de calcul pour décider de l’utilisation des entités grossières. Le modèle est formé une fois, de bout en bout et fonctionne mieux que les architectures basées sur la sommation, réduisant de 30% les erreurs par rapport à l’état de la technique précédent sur deux jeux de données de points-clés du visage, AFW et AFLW, et surpassant ainsi l’état actuel de l’art  sur 300W sans utiliser de données supplémentaires. Nous améliorons encore les performances en ajoutant un modèle de prédiction de débruitage basé sur une nouvelle formulation de convnet.

demo_sina2

Sample Keypoint Prediction for 300W test set

 

Reference

Sina Honari, Jason Yosinski, Pascal Vincent, Christopher Pal, Recombinator Networks: Learning Coarse-to-Fine Feature Aggregation, in: IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016

 

[arXiv:1511.07356] [CVPR 2016]

Linked Profiles