
Les grands modèles de langage sont coûteux à entraîner et nécessitent une puissance de calcul considérable pour fonctionner. C'est pourquoi nous avons développé NeoBERT, un modèle de langage de pointe compact, efficace et open-source qui fournira aux membres académiques et aux organisations une base solide pour entraîner leurs propres modèles.
BERT, sorti en 2019, a constitué une avancée significative dans le pré-entraînement des modèles de langage. Les modèles décodeurs, tels que GPT, se concentrent sur la génération de nouveau texte en prédisant le mot suivant dans une séquence. Les modèles encodeurs, tels que BERT, sont cependant plus performants pour comprendre le contexte d'un texte existant et fournir des représentations puissantes pour des tâches telles que la récupération, la classification ou le regroupement.
Les modèles décodeurs sont devenus très populaires avec l’engouement lié à l'IA générative, mais peu de travail a été fait pour améliorer les modèles encodeurs. De nombreux scientifiques utilisent encore les versions originales de BERT ou RoBERTa, bien que leurs performances ne soient pas à la hauteur des attententes modernes et que leurs connaissances soient désormais obsolètes: si vous demandiez à BERT qui est actuellement à la tête du Royaume-Uni, il répondrait probablement "la reine Elizabeth II".
Petit modèle, grands résultats
Les modèles encodeurs sont toujours largement utilisés par les groupes universitaires et les membres de l'industrie comme alternatives aux décodeurs pour certaines tâches telles que la représentation de texte. Ils sont beaucoup plus efficaces que les décodeurs et démontrent même d'impressionnantes capacités d'apprentissage en contexte.
C'est pourquoi nous avons intégré toutes les recherches effectuées pour les décodeurs dans les encodeurs afin de mettre ces modèles à jour et de rendre les résultats open-source pour le bénéfice de tous. NeoBERT n'est pas le seul dans cette quête: ModernBERT a été annoncé à peu près au même moment, mais, avec des stratégies de peaufinage identiques, notre modèle est plus performant sur des benchmarks réels à grande échelle.
Au lieu d'entraîner un modèle plus gros, nous avons opté pour un modèle compact de 250 millions de paramètres mais avons décidé de l'entraîner un peu plus longtemps, car nous savons que ces modèles continuent d'apprendre.
Notre modèle est donc moins coûteux sans sacrifier la précision ou les performances, car nous avons mis l'accent sur l'entraînement plutôt que sur la seule mise à l’échelle du modèle. En d'autres termes, nous avons investi nos ressources là où elles étaient le plus importantes et optimisé le modèle pour les utilisatrices et utilisateurs.
Précision accrue
Avec RefinedWeb, nous avons utilisé un ensemble de données open-source vaste, diversifié et de haute qualité pour améliorer la robustesse du modèle.
Architecture améliorée
En nous appuyant sur la littérature la plus récente, nous avons optimisé la forme de notre modèle et intégré des améliorations architecturales de pointe pour des performances maximales.
Entraîné pour l'efficacité
Nous avons utilisé des techniques modernes telles que l'attention flash, DeepSpeed et le dé-padding pour rendre l'entraînement et le peaufinage rapides et efficaces. Notre modèle est à jour, plus efficace, meilleur dans les benchmarks et peut gérer des séquences allant jusqu'à 4096 tokens.
Le meilleur atout de NeoBERT? Il est gratuit, open-source et prêt à l'emploi : puisque NeoBERT a la même taille cachée que BERT base, les développeurs peuvent l'intégrer dans leurs projets sans apporter de modifications à leur architecture.
Le code, le pipeline d'entraînement, le pipeline de données, les modèles et les points de contrôle seront tous open-source afin que l'ensemble de la communauté scientifique puisse en bénéficier, bâtir dessus et proposer des modèles encore meilleurs à l'avenir.
Vous pouvez trouver NeoBERT ici. L’article de recherche peut être trouvé ici.