Cet article décrit les défis de l’industrie alors qu’elle alimente la prochaine évolution de l’IA générative.
Cet article est publié par pÉlectrique dans le cadre d’un partenariat exclusif de contenu numérique avec Bodo’s Power Systems.
La normalisation apporte de nombreux avantages à l’environnement des centres de données. Elle permet de remplacer facilement les alimentations électriques (et d’autres composants), quelle que soit leur origine, avec presque aucun temps d’arrêt. Cependant, cela représente également un défi pour les fabricants de composants qui doivent fournir des avancées innovantes tout en étant contraints par des spécifications établies plusieurs années auparavant.
Image utilisée avec la permission de Adobe Stock
Cela peut être observé si nous examinons la spécification M-CRPS pour les alimentations électriques redondantes internes, qui fait partie de la famille d’interfaces et de facteurs de forme standardisés DC-MHS (Data Center – Modular Hardware System) du projet Open Compute, utilisés comme blocs de construction pour une gamme de fonctions allant des connexions de panneaux de contrôle aux modules de processeurs hôtes et aux interfaces de données à haute vitesse.
Les modules d’alimentation M-CRPS se présentent sous un petit nombre de facteurs de forme, parmi lesquels se distinguent le CRPS185 (185 x 73,5 x 40 mm) et le CRPS265 (265 x 73,5 x 40 mm). Les tensions de sortie peuvent être réglées à 12 V ou 54 V, et l’utilisation de cette dernière norme de 54 V augmente l’efficacité de distribution pour les charges de travail hyperscale/IA à haute puissance.
Ces dernières années ont vu une croissance rapide tant des capacités de l’IA générative que de la demande. Cela place donc des exigences exceptionnelles sur les réseaux de puissance des serveurs.
Les avancées qui sous-tendent la dernière génération de processeurs d’IA, tels que les GPU Grace Hopper et Blackwell de NVIDIA, ainsi que le GPU MI300X “Antares” d’AMD, permettent des améliorations significatives en matière d’efficacité énergétique par rapport à leurs prédécesseurs, la consommation de kilowatts par petaFLOPS ayant considérablement diminué, bien qu’il faille préciser que malgré cela, la puissance brute tirée par processeur a simultanément considérablement augmenté.
Selon la Figure 1, ces deux améliorations générationnelles de NVIDIA ont permis d’obtenir une augmentation de plus de 14 fois de la puissance de traitement, et cela a été réalisé avec peu plus que ce qui double la puissance, un grand saut en avant.
Figure 1. Les efficacités de puissance des principales offres de processeurs d’IA de NVIDIA. Remarque : les spécifications des processeurs Rubin de NVIDIA ne sont pas encore disponibles mais devraient suivre la tendance du tableau. Image utilisée avec la permission de Bodo’s Power Systems []
Mais il est également évident que pour offrir cette performance d’exécution améliorée à partir d’un facteur de forme CRPS standard, des améliorations de la densité de puissance des alimentations électriques sont nécessaires… et rapidement.
Les conceptions de référence SuperPOD du centre de données de NVIDIA intègrent six emplacements PSU CRPS 1U. Pour la conception du SuperPOD DGXH100, les alimentations électriques sont configurées avec une redondance 4+2. Cependant, si nous regardons la documentation de référence du SuperPOD DGX B200 (Blackwell), nous constatons que la redondance est réduite, cinq des six devant être alimentées à tout moment : “Le système peut fonctionner si une seule unité d’alimentation interne est désactivée, mais ne fonctionnera pas si plus d’une unité d’alimentation est désactivée, quelles que soient les redondances de puissance en amont.”
Avec une redondance minimale en place pour la génération actuelle, il est raisonnable de parier que la pression sur l’alimentation ne fera qu’intensifier.
Amélioration de la densité de puissance de 98 à 137 W/In3
Avec le silicium atteignant ses limites physiques, les semiconducteurs à large bande passante — en particulier le carbure de silicium (SiC) et l’azote de gallium (GaN) — peuvent être appliqués dans les alimentations afin de concevoir des sources d’alimentation à plus forte densité. Plus tôt cette année, Navitas Semiconductor a développé une conception de référence pour un PSU CRPS de 54 V qui a permis une augmentation de 40 % de la puissance délivrée (4,5 kW contre 3,2 kW existants) au sein d’un facteur de forme standard CRPS185. Cela augmente la densité de puissance de la conception de référence de 98 W/in3 (PSU de 3,2 kW) à 137 W/in3.
Figure 2. Densités et efficacités de puissance de la conception de référence de 4,5 kW comparées à un PSU CRPS185 de 3,2 kW disponible dans le commerce. Image utilisée avec la permission de Bodo’s Power Systems []
Bien sûr, les alimentations des centres de données doivent respecter des spécifications d’efficacité, avec la norme 80PLUS Titanium adoptée soit volontairement, soit (dans le cas des centres de données de l’UE) par le biais d’une législation obligatoire. Pour démontrer leur conformité, les PSU doivent atteindre des objectifs d’efficacité à travers la gamme de charges—10 %, 20 %, 50 % et 100 %, la norme stipulant 96 % d’efficacité à 50 % de charge. La conception de référence dépasse les exigences à travers la gamme de charges et atteint plus de 97 % à 50 % de charge. La norme 80PLUS Titanium stipule également que les PSU doivent avoir un facteur de puissance d’au moins 0,95 à des niveaux de charge plus faibles, rendant nécessaire la correction active du facteur de puissance (PFC).
PFC Totem Pole Intercalé Sans Pont
Comme montré dans la Figure 3, Navitas Semiconductor a adopté un PFC totem pole intercalé sans pont pour la conception de référence, qui inclut une étape de survoltage avec des commutateurs de direction. Par rapport à un redresseur pont classique, cela présente l’avantage de réduire considérablement les pertes des composants.
Des MOSFET SiC ont été utilisés en raison de leurs pertes de commutation et de récupération inverse minimales, permettant au PFC de fonctionner avec un budget de pertes bien au-delà de ce que le silicium seul pourrait atteindre.
Figure 3. Conception de référence de 4,5 kW avec PFC totem-pole sans pont SiC et LLC à pont complet GaN. Image utilisée avec la permission de Bodo’s Power Systems []
Convertisseur Résonnant LLC
Cette étape PFC, à son tour, alimente un convertisseur résonnant LLC avec un générateur d’onde carrée à pont complet pour exciter le circuit résonnant, avec la sortie stable de 54 V délivrée sur le côté secondaire du transformateur à travers un filtre CR et des redresseurs GaN.
Nous pouvons encore améliorer les efficacités en utilisant une commutation à tension nulle (ZVS) des transistors à pont complet à la fréquence de résonance du circuit de résonance. Cependant, les composants résonnants et le circuit associé et le filtre de sortie doivent gérer un courant plus élevé dans le même facteur de forme global avec un courant de sortie pour un PSU de 54 V, délivrant la puissance complète de 4,5 kW à 83 A.
Le pont complet pour la conception de référence de 4,5 kW est construit avec des circuits intégrés GaNSafe de 650 V, la densité de puissance de la conception de référence nécessitant une fréquence de commutation sélectionnée de 300 kHz. C’est à peu près le double de celle des unités CRPS basées sur le silicium les plus puissantes (environ 150 kHz), et bien que la fréquence de commutation du silicium ne puisse pas dépasser significativement 150 kHz, des propriétés telles que la capacité de sortie et la charge de grille du transistor de puissance GaN lui permettent de fonctionner efficacement bien au-delà de 300 kHz.
Figure 4. Le driver intégré permet de gérer inductance et résistance de boucle de porte contrôlées. Image utilisée avec la permission de Bodo’s Power Systems []
Fragilité du Gate du GaN
À ce stade, la structure fragile du gate du GaN doit être notée. La conception du circuit de commande du gate est critique pour atténuer ce problème et protéger contre les pics de tension négatifs et les oscillations.
Les circuits intégrés GaNSafe intègrent un driver optimisé pour protéger les gates, permettant une inductance et une résistance soigneusement contrôlées entre la sortie et le gate. Cela peut également être réalisé par des composants discrets, mais cela introduirait des défis de conception supplémentaires et exigerait une augmentation de la superficie de la carte PCB (et, par conséquent, une réduction de la densité de puissance).
Conclusion
Avec l’augmentation de la demande d’IA, nous assistons à une hausse considérable de la consommation d’énergie des centres de données. Confrontés à des facteurs de forme fixes, les fabricants de PSU doivent améliorer de manière significative la densité de puissance de leurs alimentations si l’industrie veut répondre à ces besoins en évolution.
Grâce à cette conception de référence, nous avons montré que cela est possible par une combinaison de PFC totem-pole SiC et LLC à haute fréquence GaN, qui poussent l’efficacité au niveau stipulé par 80PLUS Titanium et atteignent une densité de puissance bien au-delà des capacités des dispositifs en silicium ordinaires.
Alors que la prochaine génération de GPU pour les centres de données IA entre en opération, le besoin d’alimentations électriques encore plus puissantes va se poursuivre. Navitas Semiconductor a donc établi une feuille de route pour atteindre 8,5 kW par PSU avant la fin de 2024 et 10 kW par la suite.
Cet article est paru à l’origine dans le magazine Bodo’s Power Systems [] et est coécrit par Charles Bailey, Directeur Senior du Développement Commercial, et Tao Wei, Directeur des Applications, Navitas Semiconductor.