Déplacez les mathématiques et le raisonnement, il est temps de comparer l'IA en utilisant Super Mario Bros.

Un défi unique

La vue d'ensemble: L'analyse comparative de l'IA reste un problème épineux, avec des entreprises souvent accusées de résultats flatteurs de cueillettes tout en enterrant des résultats moins favorables. Au lieu de fixer des essais mathématiques et logiques, il est peut-être temps pour un test plus non conventionnel – celui qui remet en question l'IA d'une manière que les humains comprennent instinctivement: Super Mario Bros. Après tout, si un assistant d'IA ne peut pas naviguer stratégiquement au passé Goombas et Koopa Troopas, pouvons-nous vraiment lui faire confiance pour opérer dans notre monde complexe?

Des chercheurs du Hao AI Lab de UC San Diego ont mis plusieurs modèles de langue de premier plan à l'épreuve de Super Mario Bros., offrant une nouvelle perspective sur les capacités de l'IA.

L'expérience a utilisé une version émulée du jeu Nintendo classique, intégré à un cadre personnalisé appelé GamingAgent, développé par le Hao Lab. Ce système a permis aux modèles AI de contrôler Mario en générant du code Python. Pour guider leurs actions, les modèles ont reçu des instructions de base, telles que «sauter par-dessus cet ennemi», ainsi que des visualisations de capture d'écran de l'état de jeu.

Bien que Super Mario Bros. puisse sembler un simple croller le côté 2D, les chercheurs ont découvert qu'il mettait au défi l'IA de planifier des séquences de déplacement complexes et d'adapter des stratégies de gameplay en temps réel à la volée.

Claude-3.7 a été testé sur Pokémon Red, mais qu'en est-il de plus de jeux en temps réel comme Super Mario 🍄🌟?

Nous avons jeté des agents de jeu de l'IA dans des jeux en direct Super Mario et trouvé Claude-3.7 surperforma d'autres modèles avec une heuristique simple. 🤯

Claude-3.5 est également solide, mais moins capable de… pic.twitter.com/bqzvblwqx3

– Hao Ai Lab (@haoailab) 28 février 2025

En ce qui concerne la maîtrise de Super Mario Bros., le meilleur interprète était Claude 3.7 d'Anthropic, qui présentait des réflexes impressionnants, enchaînant des sauts précis et évitant habilement des ennemis. Même son prédécesseur, Claude 3.5, a bien performé.

Étonnamment, des modèles de raisonnement comme GPT-4O d'Openai et Gemini 1.5 Pro de Google ont pris du retard. Malgré leur réputation de solides capacités de raisonnement, ils ont eu du mal avec les demandes du jeu.

Il s'avère que le raisonnement logique n'est pas la clé pour exceller à Super Mario Bros. – le timing est. Même un léger retard peut envoyer Mario dégringoler dans une fosse. Les chercheurs de HAO suggèrent que des modèles plus délibératifs ont probablement pris trop de temps pour calculer leurs prochains mouvements, entraînant des décès fréquents et intempestifs.

Bien sûr, l'utilisation de jeux vidéo rétro pour comparer l'IA est principalement une expérience ludique plutôt qu'une évaluation sérieuse. La question de savoir si une IA peut battre Super Mario Bros. a peu d'incidence sur son utilité réelle, mais regarder des modèles sophistiqués lutter avec ce qui semble être un jeu d'enfant est indéniablement divertissant.

Pour ceux qui sont curieux d'expérimenter, le laboratoire Hao AI a ouvert son cadre de jeu sur GitHub.