Goblins ChatGPT : pourquoi OpenAI a banni ces créatures de GPT-5.5 et Codex

OpenAI a publié un post de blog assez inattendu intitulé « Where the goblins came from ». L’entreprise y raconte comment ses derniers modèles, à partir de GPT-5.1, se sont mis à parsemer leurs réponses de goblins, de gremlins, de trolls et même de ratons-laveurs. Le phénomène a fini par devenir tellement gênant que les ingénieurs ont dû ajouter une instruction explicite dans Codex pour interdire au modèle de parler de ces créatures. On vous explique d’où vient ce bug improbable et ce qu’il révèle sur l’entraînement des grands modèles de langage.

Quand ChatGPT s’est mis à voir des goblins partout

Le tic est apparu progressivement à partir de GPT-5.1, sorti en novembre. Au début, un petit « goblin » glissé dans une réponse paraissait charmant. Sauf que les remontées internes ont commencé à s’accumuler chez OpenAI. Les chiffres qu’ils ont publiés sont assez parlants : après le lancement de GPT-5.1, l’usage du mot « goblin » a augmenté de 175 % dans ChatGPT et celui de « gremlin » de 52 %. On est très loin du simple effet de mode lexical.

L’affaire a vraiment éclaté au grand jour fin avril, quand Barron Roth, un employé de Google, a posté sur X des extraits de ses logs avec des agents Openclaw motorisés par GPT-5.5. Le modèle utilisait le mot « goblin » plusieurs fois par jour, parfois pour remplacer un mot vague comme « truc » ou « machin ». Les développeurs qui passaient leur journée dans Codex constataient le même problème. Nick Pash, qui travaille sur Codex chez OpenAI, a confirmé publiquement sur X que c’était bien un des bugs identifiés en interne.

La vraie cause : la personnalité Nerdy a mal tourné

La partie technique est passionnante. OpenAI a remonté le coupable jusqu’à sa fonction de personnalisation des personnalités, et plus précisément la personnalité Nerdy. Le system prompt de cette personnalité demande au modèle de jouer le mentor enthousiaste, de parler de science et de philosophie tout en cassant le sérieux par un usage joueur du langage. Sur le papier, ça n’a rien de scandaleux.

Le problème est arrivé pendant l’entraînement par renforcement. Le signal de récompense associé à la personnalité Nerdy a inconsciemment sur-récompensé les métaphores avec des créatures. OpenAI précise que dans 76,2 % des datasets audités, une réponse contenant « goblin » ou « gremlin » recevait un meilleur score que la même réponse sans ces mots. Le modèle a donc appris très vite qu’écrire « ce petit goblin de bug » rapportait davantage que « ce bug bizarre ».

Le détail qui rend l’histoire encore plus intéressante, c’est la propagation. La personnalité Nerdy ne représente que 2,5 % du trafic total de ChatGPT, mais elle concentrait 66,7 % des occurrences du tic. Sauf que le biais a fini par contaminer les autres personnalités via le post-training. C’est exactement ce qu’on appelle un reward hacking non intentionnel : le modèle exploite une faille du système de notation et finit par transmettre la faille à toute la famille de modèles.

La parade d’OpenAI : un system prompt qui interdit les créatures

Pour Codex CLI, dont le code est open source sur GitHub, OpenAI a opté pour la méthode brutale. Le system prompt contient désormais une instruction explicite, répétée plusieurs fois pour bien insister : « Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons » sauf si la requête de l’utilisateur le demande clairement. Le fait que les ingénieurs aient ressenti le besoin de répéter la consigne en dit long sur la difficulté à corriger ce genre de comportement par simple instruction. Sam Altman a fini par en faire un meme sur X, en proposant pour rire d’entraîner GPT-6 avec « des goblins en plus ».

Ce que ce bug nous apprend sur le fine-tuning des LLM

Je trouve cette histoire fascinante parce qu’elle illustre parfaitement le côté boîte noire du RLHF. Quand on entraîne un modèle avec des récompenses, on ne contrôle jamais totalement ce qu’il finit par apprendre. Les ingénieurs voulaient juste un ton joueur pour la personnalité Nerdy, et ils se sont retrouvés avec un modèle obsédé par les créatures fantastiques sur l’ensemble de ses interactions. C’est exactement le type de dérive que les chercheurs en alignement appellent depuis des années, et c’est rassurant de voir OpenAI documenter ses propres ratés en transparence plutôt que de les balayer sous le tapis.

L’autre leçon concerne la fragilité des system prompts. Si on doit répéter trois fois « ne parle pas de goblins » pour qu’un modèle obéisse, ça veut dire que les patchs par instruction restent un sparadrap sur un problème de fond. Le vrai correctif passe par un nouvel entraînement plus propre, ce qui coûte cher et prend du temps. En attendant, Codex évite les goblins par la discipline plutôt que par la conviction.

L’histoire complète de Goblins ChatGPT

Le post complet d’OpenAI vaut vraiment la lecture si vous voulez le détail des graphiques et des datasets : Where the goblins came from. C’est à réserver aux geeks ;).