Bitnet de Microsoft montre ce que l'IA peut faire avec seulement 400 Mo et pas de GPU

Bitnet B1.58 2B4T surpasse les rivaux comme Llama, Gemma et Qwen sur les tâches communes

Que vient-il de se passer? Microsoft a introduit Bitnet B1.58 2B4T, un nouveau type de modèle de grande langue conçu pour une efficacité exceptionnelle. Contrairement aux modèles AI conventionnels qui reposent sur des nombres à virgule flottante 16 ou 32 bits pour représenter chaque poids, Bitnet n'utilise que trois valeurs discrètes: -1, 0 ou +1. Cette approche, connue sous le nom de quantification ternaire, permet de stocker chaque poids en seulement 1,58 bits. Le résultat est un modèle qui réduit considérablement l'utilisation de la mémoire et peut fonctionner beaucoup plus facilement sur le matériel standard, sans nécessiter les GPU haut de gamme généralement nécessaires à une IA à grande échelle.

Le modèle Bitnet B1.58 2B4T a été développé par le groupe d'intelligence artificielle générale de Microsoft et contient deux milliards de paramètres – des valeurs internes qui permettent au modèle de comprendre et de générer un langage. Pour compenser ses poids à faible précision, le modèle a été formé sur un ensemble de données massif de quatre billions de jetons, à peu près équivalent au contenu de 33 millions de livres. Cette formation approfondie permet à Bitnet de fonctionner à égalité avec – ou dans certains cas, mieux que – d'autres modèles de premier plan de taille similaire, tels que Meta's Llama 3.2 1B, Google's Gemma 3 1b et Qwen 2.5 1.5b d'Alibaba.

Dans les tests de référence, Bitnet B1.58 2B4T a démontré de solides performances dans une variété de tâches, y compris des problèmes mathématiques scolaires et des questions nécessitant un raisonnement de bon sens. Dans certaines évaluations, il a même surpassé ses concurrents.

Ce qui distingue vraiment Bitnet, c'est son efficacité de mémoire. Le modèle ne nécessite que 400 Mo de mémoire, moins d'un tiers de ce dont les modèles comparables ont généralement besoin. En conséquence, il peut fonctionner en douceur sur les CPU standard, y compris la puce M2 d'Apple, sans s'appuyer sur des GPU haut de gamme ou un matériel d'IA spécialisé.

Ce niveau d'efficacité est rendu possible par un cadre logiciel personnalisé appelé bitnet.cpp, qui est optimisé pour profiter pleinement des poids ternaires du modèle. Le cadre assure des performances rapides et légères sur les appareils informatiques quotidiens.

Les bibliothèques AI standard comme les transformateurs de Hugging Face n'offrent pas les mêmes avantages de performances que Bitnet B1.58 2B4T, ce qui rend le framework Bitnet.cpp personnalisé essentiel. Disponible sur GitHub, le cadre est actuellement optimisé pour les processeurs, mais la prise en charge des autres types de processeurs est prévue dans les futures mises à jour.

L'idée de réduire la précision du modèle pour sauver la mémoire n'est pas nouvelle car les chercheurs ont longtemps exploré la compression du modèle. Cependant, la plupart des tentatives passées ont consisté à convertir des modèles de précision complète après la formation, souvent au détriment de la précision. Bitnet B1.58 2B4T adopte une approche différente: elle est formée à partir de zéro en utilisant seulement trois valeurs de poids (-1, 0 et +1). Cela lui permet d'éviter bon nombre des pertes de performances observées dans les méthodes antérieures.

Ce changement a des implications importantes. L'exécution de grands modèles d'IA exige généralement un matériel puissant et une énergie considérable, des facteurs qui augmentent les coûts et l'impact environnemental. Parce que Bitnet s'appuie sur des calculs extrêmement simples – principalement des ajouts au lieu de multiplications – il consomme beaucoup moins d'énergie.

Les chercheurs de Microsoft estiment qu'il utilise 85 à 96% de l'énergie en moins que les modèles de précision complète comparables. Cela pourrait ouvrir la porte à l'exécution de l'IA avancée directement sur les appareils personnels, sans avoir besoin de superordinateurs basés sur le cloud.

Cela dit, Bitnet B1.58 2B4T a certaines limites. Il ne prend actuellement en charge que le matériel spécifique et nécessite le framework Bitnet.cpp personnalisé. Sa fenêtre de contexte – la quantité de texte qu'il peut traiter en même temps – est plus petite que celle des modèles les plus avancés.

Les chercheurs étudient toujours pourquoi le modèle fonctionne si bien avec une architecture aussi simplifiée. Les travaux futurs visent à étendre ses capacités, y compris le support pour plus de langues et des entrées de texte plus longues.