On the Relation Between the Sharpest Directions of DNN Loss and the SGD Step Length

Sep 2018

On the Relation Between the Sharpest Directions of DNN Loss and the SGD Step Length

Sep 2018

L’entraînement de réseaux neuronaux profonds avec descente de gradient stochastique (SGD) avec un taux d’apprentissage élevé ou une petite taille de lot se termine généralement dans des régions plates de l’espace de poids, comme indiqué par les petites valeurs propres de la perte d’entraînement de Hessian. Cela s’est avéré corrélé avec une bonne performance de généralisation finale. Dans cet article, nous étendons les travaux antérieurs en examinant la courbure de la surface de perte tout au long de la trajectoire d’entraînement, plutôt qu’au point final. Nous constatons que SGD visite initialement des régions de plus en plus pointues, atteignant une netteté maximale déterminée à la fois par le taux d’apprentissage et la taille du lot de SGD. À cette valeur de crête, SGD commence à ne pas minimiser la perte dans les directions de la surface de perte correspondant à la courbure la plus grande (les directions les plus nettes). Pour étudier plus en détail l’effet de ces dynamiques sur le processus d’entraînement, nous étudions une variante du SGD utilisant un taux d’apprentissage réduit dans les directions les plus pointues. Nous montrons qu’elle peut améliorer la vitesse d’entraînement tout en trouvant une solution plus nette et plus généralisée, par rapport au SGD vanille. Globalement, nos résultats montrent que la dynamique de SGD dans le sous-espace des directions les plus pointues influence les régions dans lesquelles SGD se dirige (où un taux d’apprentissage plus important ou une taille de lot plus réduite dans les régions plus larges visitées), la vitesse de formation globale et la capacité de généralisation du modèle final.

Reference

https://openreview.net/forum?id=SkgEaj05t7

Linked Profiles