Stochastic Gradient Push for Distributed Deep Learning
Les algorithmes parallèles distribués en données visent à accélérer la formation de réseaux de neurones profonds en parallélisant le calcul de grandes mises à jour de petits groupes de gradients sur plusieurs nœuds. Les approches qui synchronisent les nœuds à l’aide de la moyenne exacte (par exemple, via AllReduce) sont sensibles aux retards de communication. L’algorithme de potins PushSum résiste à ces problèmes, mais n’effectue que la moyenne distribuée approximative. Cet article étudie le SGP (Stochastic Gradient Push), qui associe PushSum à des mises à jour de gradient stochastiques. Nous prouvons que SGP converge vers un point stationnaire d’objectifs lisses et non convexes au même taux sub-linéaire que SGD et que tous les nœuds parviennent à un consensus. Nous validons empiriquement les performances du SGP sur les charges de travail de classification des images (ResNet-50, ImageNet) et de traduction automatique (Transformer, WMT’16 En-De). Notre code sera disponible au grand public.