Crypto Edu
19 juillet 2025 03:30
NVIDIA introduit des techniques avancées pour réduire la latence dans l’inférence du modèle de langage, en tirant parti de Jax et XLA pour des améliorations de performances significatives des charges de travail basées sur GPU.
Dans la quête en cours pour optimiser les charges de travail d’inférence, NVIDIA a dévoilé une série d’améliorations visant à réduire la latence lors de l’exécution de modèles de langues (LLM) dans les environnements de production. Selon NVIDIA, ces progrès sont particulièrement cruciaux pendant la phase de décodage LLM, où la réduction du temps à l’entrée est vitale.
Relever les défis de latence
L’approche de Nvidia implique le partitionnement des tâches d’inférence sur plusieurs GPU en utilisant le parallélisme du tenseur, ciblant spécifiquement le perceptron multicouche (MLP) et les couches GEMM de projection dans les blocs de transformateur. Ce partitionnement aide à minimiser les latences d’exécution, un goulot d’étranglement commun en informatique haute performance.
Pendant le stade de décodage, les frais généraux statiques tels que l’invocation du noyau et la configuration de la communication peuvent dominer, conduisant à une latence accrue. Pour lutter contre cela, NVIDIA a développé des techniques pour minimiser ces frais généraux, qui contribuent considérablement à la latence globale du décodage.
Innovations dans les algorithmes All-Reduce
Les recherches de Nvidia ont révélé que le collectif All-Reduce dans les couches parallèles du tenseur était un goulot d’étranglement important, consommant environ 23% de la latence de décodage de bout en bout. Traditionnellement, l’algorithme RING est utilisé pour les opérations de toutes les réductions, qui, bien que la bande passante optimale pour les messages plus importants, entraîne des latences élevées pour des tailles de messages plus petites.
Pour y remédier, NVIDIA a implémenté un algorithme All-Reduce à un seul coup personnalisé, qui agrége les données des pairs et effectue une réduction en une seule étape. Cette innovation réduit la latence de communication en permettant des échanges de données simultanés via NVLink, malgré l’augmentation de la bande passante totale.
En outre, NVIDIA a utilisé CudadeviceEenablePeerAccess pour éliminer les frais généraux de copie de mémoire supplémentaires, permettant un accès direct aux tampons sur les GPU homologues. Cette méthode est particulièrement efficace dans les configurations multi-GPU à nœuds, où un contexte CUDA partagé simplifie l’accès à la mémoire entre les appareils.
Gains de fusion et de performance
Le noyau All-Reduce unique a été encore optimisé en le fusionnant avec la normalisation de la couche et les opérations d’addition ponctuelle dans un seul noyau CUDA C ++. Cette fusion minimise les frais généraux de lancement du noyau et le mouvement des données, fournissant une accélération de ~ 3x sur les noyaux de réduction autonome et une amélioration de ~ 27% de la latence de phase de décodage.
En regroupant et en lançant ces noyaux en tant que graphique CUDA unique, NVIDIA a réalisé une réduction supplémentaire de 5% de la latence de décodage. Cette intégration complète démontre le potentiel des noyaux personnalisés pour améliorer l’efficacité de l’inférence.
Optimisations et développements futurs
Nvidia continue d’explorer d’autres optimisations pour l’inférence à faible latence, en particulier pour les charges de travail avec de petites tailles de message. Les fonctionnalités à venir dans le NCCL 2.27 et les versions futures visent à améliorer les frais généraux de communication, ce qui peut atteindre jusqu’à 4x communication plus rapide pour les charges utiles plus petites.
De plus, NVIDIA tire parti des API de communication côté périphérique initiées par le GPU disponibles dans la bibliothèque NVIDIA OpenShmem pour entrelacer les blocs de communication de calcul, masquant efficacement les latences de communication. Les progrès récents dans le DSL de la mosaïque-GPU facilitent l’expression des modèles de fusion de communication de calcul entrelacés, promettant d’autres améliorations des grains de fusion distribués pour divers paradigmes parallèles.
Pour des informations plus détaillées, l’article original de Nvidia est accessible ici.
Source de l’image: Shutterstock
Source: https://blockchain.news/news/enhancing-inference-efficy-nvidias-innovations-with-jax-and-xla
Résumé: NVIDIA met en avant des innovations importantes pour réduire la latence dans les tâches d’inférence des modèles de langage, en utilisant des techniques avancées adaptées aux environnements de production. Les améliorations récentes démontrent un engagement vers une efficacité accrue et des performances optimisées.