Réduire la dépendance à l’égard de Nvidia et d’autres processeurs externes comme principal moteur de croissance
Pourquoi est-ce important: Selon certaines rumeurs, Microsoft travaillait depuis des années sur du silicium personnalisé pour les besoins de son centre de données. Il s’avère que les rumeurs étaient vraies et cette semaine, la société a dévoilé non pas un mais deux processeurs basés sur Arm. Les nouvelles puces seront intégrées aux fermes de serveurs Azure à partir du début de 2024, pour être utilisées comme bêtes de somme des services d’IA comme Microsoft Copilot.
Cette semaine, Microsoft a annoncé avoir construit deux puces « maison » qui géreront les charges de travail d’IA et de calcul général dans le cloud Azure. L’annonce a été faite lors de la conférence Ignite 2023 et confirme les rumeurs précédentes sur l’existence du « Projet Athena » – une puce conçue sur mesure basée sur Arm qui réduirait la dépendance de Microsoft à l’égard du matériel disponible dans le commerce provenant de fournisseurs comme Nvidia, en particulier dans le domaine de la formation et de l’inférence en intelligence artificielle.
La première puce s’appelle Microsoft Azure Maia 100 AI Accelerator et est le résultat direct du projet Athena. Comme son long nom l’indique, le géant de Redmond a conçu la puce spécifiquement pour exécuter des modèles de langages volumineux tels que GPT-3.5 Turbo et GPT-4. Construite sur le processus 5 nm de TSMC et comportant pas moins de 105 milliards de transistors, la nouvelle puce prend en charge divers types de données MX, y compris les formats inférieurs à 8 bits pour des temps de formation et d’inférence de modèles plus rapides.
Pour référence, la superpuce AI H100 de Nvidia possède 80 milliards de transistors et l’Instinct MI300X d’AMD compte 153 milliards de transistors. Cela dit, nous n’avons pas encore vu de comparaisons directes des performances entre l’accélérateur d’IA Maia 100 et les puces existantes utilisées par la plupart des entreprises créant des services d’IA. Ce que nous savons, c’est que chaque unité de calcul Maia 100 dispose d’une bande passante globale de 4,8 térabits grâce à un protocole réseau personnalisé basé sur Ethernet qui permet une meilleure évolutivité et des performances de bout en bout.
A lire aussi : Adieu aux graphiques : comment les GPU en sont venus à dominer l’IA et le calcul
Il convient également de noter que Microsoft a développé la puce Maia 100 en s’appuyant sur les nombreux commentaires d’OpenAI. Les deux sociétés ont travaillé ensemble pour affiner l’architecture et tester les modèles GPT. Pour Microsoft, cela contribuera à optimiser l’efficacité de l’architecture d’IA de bout en bout d’Azure, tandis qu’OpenAI sera en mesure de former de nouveaux modèles d’IA meilleurs et moins chers que ceux disponibles aujourd’hui.
La deuxième puce présentée par Microsoft lors d’Ignite s’appelle le processeur Cobalt 100. Celui-ci est un processeur Arm 64 bits à 128 cœurs basé sur les sous-systèmes de calcul Arm Neoverse et apporte des améliorations de performances allant jusqu’à 40 % pour les charges de travail informatiques Azure plus générales par rapport au matériel de génération actuelle trouvé dans les serveurs commerciaux basés sur Arm. . Les serveurs basés sur Cobalt 100 seront utilisés pour alimenter des services tels que Microsoft Teams et Windows 365, entre autres.
Rani Borkar, responsable des systèmes d’infrastructure Azure chez Microsoft, affirme que les efforts de l’entreprise en matière de puces s’appuient sur deux décennies d’expérience dans la co-ingénierie du silicium pour Xbox et Surface. Le nouveau processeur Cobalt 100 permet à l’entreprise de contrôler les performances et la consommation d’énergie par cœur et permet de créer une pile matérielle cloud plus rentable.
La photo ci-dessus montre un rack sur mesure pour le nouvel accélérateur d’IA Maia 100 dans un laboratoire Microsoft à Redmond. Le « compagnon » sur la gauche est utilisé pour faire circuler le liquide de refroidissement vers et depuis le rack.
La partie coût de l’équation est particulièrement importante. Dans le cas du Maia 100 AI Accelerator, Microsoft a dû proposer une nouvelle solution de refroidissement liquide et une nouvelle conception de rack offrant plus d’espace pour les câbles d’alimentation et de réseau. Cela dit, le coût d’utilisation de la nouvelle puce reste nettement inférieur à celui de l’utilisation de matériel spécialisé de Nvidia ou d’AMD.
Microsoft semble déterminé à créer un Copilot « pour tout le monde et pour tout ce que vous faites », et cela se reflète dans la sortie de Copilot pour Windows, GitHub, Dynamics 365, Microsoft Security et Microsoft 365. La société vient de rebaptiser Bing Chat en « Microsoft Copilot « , il est donc clair qu’il souhaite intégrer des modèles d’IA toujours plus avancés dans chaque service qu’il propose à l’avenir.
Rani Borkar tenant des échantillons de puces conçues sur mesure par Microsoft
La formation et l’inférence en matière d’IA coûtent rapidement cher, et on estime que l’exécution d’un service d’IA coûte jusqu’à dix fois plus cher qu’un moteur de recherche. La fabrication de silicium personnalisé pourrait également atténuer les problèmes d’approvisionnement et aider Microsoft à obtenir un avantage concurrentiel dans un paysage encombré de fournisseurs de cloud IA. Certains comme Amazon, Meta et Google ont également leurs propres efforts en matière de silicium pour les mêmes raisons, et des entreprises comme Ampere, qui rêvaient autrefois de devenir les fournisseurs incontournables de puces pour centres de données basées sur Arm, seront sans aucun doute obligées de s’adapter à ces dernières. développements s’ils veulent survivre.
Cela dit, la société de Redmond affirme qu’elle continuera à utiliser du matériel disponible dans le commerce dans un avenir proche, y compris le GPU H200 Tensor Core récemment annoncé par Nvidia. Scott Guthrie, vice-président exécutif de Microsoft Cloud + AI Group, affirme que cela contribuera à diversifier la chaîne d’approvisionnement de l’entreprise et offrira aux clients davantage de choix en matière d’infrastructure.