Mila > Publication > Stochastic Gradient Push for Distributed Deep Learning

Stochastic Gradient Push for Distributed Deep Learning

Nov 2018

Stochastic Gradient Push for Distributed Deep Learning

Nov 2018

Les algorithmes parallèles distribués en données visent à accélérer la formation de réseaux de neurones profonds en parallélisant le calcul de grandes mises à jour de petits groupes de gradients sur plusieurs nœuds. Les approches qui synchronisent les nœuds à l’aide de la moyenne exacte (par exemple, via AllReduce) sont sensibles aux retards de communication. L’algorithme de potins PushSum résiste à ces problèmes, mais n’effectue que la moyenne distribuée approximative. Cet article étudie le SGP (Stochastic Gradient Push), qui associe PushSum à des mises à jour de gradient stochastiques. Nous prouvons que SGP converge vers un point stationnaire d’objectifs lisses et non convexes au même taux sub-linéaire que SGD et que tous les nœuds parviennent à un consensus. Nous validons empiriquement les performances du SGP sur les charges de travail de classification des images (ResNet-50, ImageNet) et de traduction automatique (Transformer, WMT’16 En-De). Notre code sera disponible au grand public.

Reference

Linked Profiles