Serveur d’IA avec connexion à chaud grâce à des contrôleurs de remplacement à chaud

pelectrique
15 Min Lecture

Cet article présente des stratégies pour un fonctionnement fiable et continu dans les centres de données de serveurs d’IA grâce à des contrôleurs à échange à chaud.

Cet article est publié par pÉlectrique dans le cadre d’un partenariat de contenu numérique exclusif avec Bodo’s Power Systems.

C’est l’ère de l’utilisation de l’IA 24/7, où les serveurs d’IA doivent être toujours connectés. Leur demande croissante en énergie a forcé les architectures de serveurs à passer de 12 V à 48 V, ce qui a réduit les pertes d’énergie par un facteur de 16, permettant une extraction d’énergie plus importante avec des coûts de refroidissement réduits. Un rack de serveur d’IA calcule les données requises dans un fonctionnement sans interruption et comprend plusieurs lames de serveur d’IA qui fonctionnent en parallèle. Les lames de serveur, à leur tour, sont composées d’un convertisseur de puissance, d’un processeur d’IA, de commutateurs réseau et de mémoire.

 

Image utilisée avec l’aimable autorisation de Adobe Stock

 

Serveurs d’IA et échange à chaud

Visualisez les lames de serveur d’IA parallèles comme des tiroirs d’un classement : l’arrière du classement dans lequel ces tiroirs (lames de serveur) s’insèrent est un plan de distribution actif de 48 V, et le classement est le rack de serveur. Les lames sont branchées sur ce plan de distribution alimenté par la même source que les processeurs. Si une lame échoue, la charge est répartie entre les autres pour maintenir le système en fonctionnement. Pendant ce temps, les lames défectueuses sont remplacées en branchant de nouvelles lames sur le plan de distribution actif sans mettre l’ensemble du système hors ligne. Ce processus est appelé « échange à chaud » ou « hot-swapping ».

Pour éviter des temps d’arrêt coûteux des serveurs ou des coûts de remplacement élevés, qui peuvent dépasser 9000 $ par minute selon Forbes, les lames de serveur doivent être protégées contre des pannes au niveau du système dues à des fluctuations de tension ou des variations thermiques, entre autres facteurs. C’est là que les contrôleurs à échange à chaud, en tant que solutions de protection fiables pour les serveurs d’IA, entrent en jeu.

 

Analogie du courant d'appel du condensateur avec un exemple de réservoir d'eau.

Figure 1. Analogie du courant d’appel du condensateur avec un exemple de réservoir d’eau. Image utilisée avec l’aimable autorisation de Bodo’s Power Systems []

 

Événements d’échange à chaud

Chaque lame de serveur à échange à chaud contient un condensateur pour des fonctions de stockage d’énergie et pour filtrer les ondulations de tension et le bruit haute fréquence. Lors de l’insertion de la lame de serveur, le condensateur est déchargé, agissant comme un court-circuit ou un chemin à faible impédance de VIN à la terre. L’échange à chaud d’une lame de serveur à ce moment génère une énorme quantité de courant d’appel pendant un court laps de temps. Mais il est suffisamment puissant pour faire sauter le fusible ou provoquer des chutes de tension dans les lames adjacentes, entraînant une mise hors tension du système. La densité de puissance croissante résultant de la demande énergétique croissante des serveurs d’IA exige également une capacité supplémentaire, rendant critique la réduction de ce courant d’appel.

Une technique pour réduire le courant d’appel consiste à augmenter la résistance du chemin de courant en ajoutant une résistance en série entre VIN et CIN. L’augmentation de la résistance sur le chemin de puissance entraînerait une chute de tension, ce qui ajoute aux pertes I2R. Une autre technique utilise des thermistances à coefficient de température négatif (NTC), offrant une haute résistance avant l’échange à chaud. Le courant d’appel passant par des NTC d’une lame de serveur à température ambiante génère de la chaleur due aux pertes I2R, réduisant ainsi la résistance. Ainsi, les NTC réduisent considérablement les pertes dans l’état permanent du système. Les résistances pourraient être déroutées à l’aide d’un commutateur/relais, ce qui augmente la taille, le coût et la complexité. Elles ne sont également pas fiables lorsque des lames défectueuses doivent être isolées.

 

Mécanisme du contrôleur à échange à chaud

Il est clair qu’une solution est nécessaire où le courant d’entrée vers le condensateur peut être contrôlé lors de l’échange à chaud sans provoquer de chutes de tension ou de pertes de puissance pendant les opérations normales.

Imaginez le plan de distribution comme un réservoir d’eau infini et le condensateur d’entrée comme un réservoir d’eau vide. Pour contrôler l’eau allant du réservoir vers le réservoir, une vanne de contrôle est ajoutée, sans laquelle l’eau s’écoule vers le réservoir au débit maximum, comme le courant d’appel. Dans cette analogie, la vanne est un MOSFET, dont la tension de grille détermine le courant circulant à travers lui. Lorsque la tension de grille du MOSFET est inférieure à Vth (seuil d’activation), il fonctionne dans la zone de découpage sans permettre au courant de circuler, bloquant le flux de courant (courant d’appel) lors de l’insertion de la lame dans le plan de distribution.

Lorsque VGS > VTH, un courant contrôlé circule à travers le FET. Initialement, le courant dépend de VGS alors que VDS est élevé, plaçant le MOSFET dans la zone de saturation, où le courant reste constant tant que VGS est stable. À mesure que VGS augmente, plus de courant circule, chargeant le condensateur d’entrée et abaissant VDS, transitionnant ainsi le MOSFET dans la zone ohmique où le courant dépend de RDS(on).

Pour les applications à échange à chaud, les MOSFET de 100 V sont courants avec des valeurs RDS(on) typiques entre 1,5 mΩ et 3,5 mΩ. Des MOSFET identiques sont mis en parallèle pour partager le courant, réduisant le stress thermique en abaissant efficacement RDS(on) par FET.

Un contrôleur à échange à chaud contrôle la tension de grille du MOSFET pour réguler le courant du condensateur au démarrage. Il s’assure également que le MOSFET n’est pas endommagé, restant dans ses limites de conception définies par les courbes de zone de fonctionnement sécurisée (SOA) trouvées dans la fiche technique du MOSFET.

 

Contrôleurs à échange à chaud numériques

Pour répondre à la demande croissante en puissance, les contrôleurs à échange à chaud numériques permettent de programmer les profils SOA du FET afin de garantir que le FET reste toujours dans sa région de fonctionnement sûre et d’améliorer la fiabilité globale du système et sa durée de vie. Son algorithme fonctionne comme suit :

1. Le profil de courant SOA du MOSFET de VDS = 80 V à VDS = 1 V est programmé à la température souhaitée

2. Lors de l’échange à chaud, le VDS du FET = VIN. Le contrôleur consulte une table de correspondance interne et fixe le courant de drain correspondant comme le courant de drain cible du FET

3. Le contrôleur augmente lentement VGS et mesure le courant circulant à travers le FET, le régulant pour maintenir le niveau de courant programmé

4. À mesure que le courant circule, le condensateur CIN se charge, augmentant le VOUT et réduisant VDS

5. Le contrôleur ajuste le courant de régulation cible à mesure que VDS diminue

6. Une fois que CIN est complètement chargé, l’événement de courant d’appel se termine ; le contrôleur signale à l’onduleur « Alimentation OK »

7. L’onduleur alimente le processeur, amenant la lame de serveur en ligne

 

Solution à échange à chaud de 4 kW

Une solution à échange à chaud de 4 kW avec quatre FET OptiMOS 5 Linear IPT017N10NM5LF2 et un contrôleur à échange à chaud XDP XDP710-002 est disponible chez Infineon. Le tableau fonctionne de 40 V à 60 V, et le courant de charge nominal est de 4000 W = 100 A ; ainsi, quatre FET sont opérés en parallèle après des calculs thermiques. Le profil SOA du FET à 95°C est programmé dans le contrôleur.

 

Conception d'un contrôleur à échange à chaud de 4 kW.

Figure 2. Conception d’un contrôleur à échange à chaud de 4 kW. Image utilisée avec l’aimable autorisation de Bodo’s Power Systems []

 

Mode d’impulsion vs. Mode continu

Lorsque l’on fonctionne sur la ligne SOA DC, la dissipation de puissance continue à travers le FET (VDS × ID) réduit la fiabilité, surtout avec une plus grande capacité prolongeant le temps du MOSFET dans la région linéaire. Ainsi, la ligne SOA de 1 ms est utilisée, faisant fonctionner le FET pendant 1 ms pour charger le condensateur, puis hors tension pour se refroidir, et répétant.

Lors de l’activation, le FET charge le condensateur d’entrée sans alimenter le courant de charge, stockant ainsi de l’énergie. Lors de la coupure, le contrôleur charge lentement le condensateur, permettant au MOSFET de se refroidir. En mode d’impulsion, les FET fonctionnent sur la ligne SOA de 1 ms pendant des VDS élevés et passent en mode continu à des VDS plus bas, offrant ~9 ms (ajustables) de temps de refroidissement, améliorant ainsi la fiabilité.

La connexion mécanique de l’échange à chaud d’une lame de serveur dans le plan de distribution provoque souvent une oscillation. L’impulsion de grille pour le FET d’appel est fournie uniquement après que la lame est correctement branchée pour éviter le rebond. Par conséquent, une broche de détection de voltage peut être utilisée, qui est la dernière à se connecter au plan de distribution et est liée à la broche « Activation » du contrôleur à échange à chaud. Le contrôleur active les FET d’appel uniquement lorsque la tension sur la broche « Activation » est supérieure à un seuil pendant une durée déterminée ; sinon, le CIN reste déconnecté du plan de distribution.

 

Formes d'onde typiques de l'activation de XDP™ XDP710-002 chargeant une capacité de 5000 µF.

Figure 3. Formes d’onde typiques de l’activation de XDP XDP710-002 chargeant une capacité de 5000 µF. Image utilisée avec l’aimable autorisation de Bodo’s Power Systems []

 

Protection contre les défauts des lames et du plan de distribution

Le plan de distribution doit être protégé contre les lames défectueuses pour protéger d’autres serveurs parallèles. Il est d’une importance capitale de détecter les défauts et d’isoler rapidement et en toute sécurité les lames de serveur affectées en ouvrant les FET d’appel. Des événements externes tels que des variations de tension ou des surtensions nécessitent également une protection pour maintenir la fiabilité du système et éviter les temps d’arrêt des serveurs.

Les contrôleurs à échange à chaud offrent une protection contre les courts-circuits, les surintensités, les surtensions, les sous-tensions, les surchauffes et les défauts FET. Ils isolent les modules défectueux sans endommager le plan de distribution et alertent le système via des broches de défaut. Les FET peuvent être maintenus hors tension ; ils peuvent se rallumer après des défauts auto-effacés, ou le contrôleur peut réessayer automatiquement en fonction des paramètres.

La détection de court-circuit est critique en raison de son impact potentiellement catastrophique. Les contrôleurs modernes isolent les défauts en moins de

Le module de surveillance active du contrôleur à échange à chaud, accessible via PMBus, fournit des télémetries précises en temps réel de la tension, du courant, de la puissance, de la température et de l’énergie, avec des statuts de défaut et d’alerte rapportés. La capacité de capturer les pics et les creux aide à identifier d’éventuels événements de défaut.

Pour améliorer la fiabilité et l’analyse des défauts, une fonctionnalité de boîte noire enregistre les données de télémétrie avant, pendant et après les défauts, permettant une analyse détaillée et un dépannage.

 

Tendances futures

Les demandes croissantes recherchent des solutions intégrées telles que les eFuses, combinant des MOSFET linéaires, des contrôleurs à échange à chaud et des capteurs de courant et de température dans un seul package, réduisant ainsi considérablement la taille des solutions à échange à chaud.

Les eFuses offrent une fiabilité améliorée. Des capteurs de température intégrés fournissent des lectures en temps réel de la température de la puce, arrêtant le MOSFET à des températures dangereuses. De plus, lorsque plusieurs eFuses sont mises en parallèle, elles garantissent le partage du courant au démarrage.

La consommation électrique des serveurs d’IA devrait augmenter à 8/12 kW, nécessitant des tensions de plan de distribution allant jusqu’à 400 V. Cela nécessite de nouveaux contrôleurs à échange à chaud et MOSFET plus robustes et fiables, car les pannes à de si hautes tensions pourraient être catastrophiques.

 

Cet article est paru à l’origine dans le magazine Bodo’s Power Systems [].


Partager cet Article
Laisser un commentaire

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *