Le 5 mai 2026, OpenAI a basculé le modèle par défaut de ChatGPT sans préavis grand public : GPT-5.3 Instant a disparu de la sélection, remplacé par GPT-5.5 Instant. La rotation s'est faite côté serveur pour les utilisateurs Plus et Pro sur le web, puis sur mobile dans les jours qui ont suivi. Pour la majorité des utilisateurs gratuits, la bascule a continué de se déployer par cohortes les semaines suivantes.
Ce qui rend cette release intéressante n'est pas tant le nom que ce qu'il y a derrière. GPT-5.5 a été annoncé le 23 avril 2026, déployé sur l'API le 24, et la déclinaison Instant n'est que la version optimisée pour la latence du même socle technique. Et ce socle, c'est la première fois qu'OpenAI livre un modèle vraiment omnimodal : texte, image, audio, vidéo, le tout traité dans une architecture unifiée. Pas un assemblage de modèles spécialisés comme avec GPT-4o, mais un seul réseau qui ingère et raisonne sur tout en même temps.
J'ai passé les deux dernières semaines à le pousser en conditions réelles sur trois workflows : refactoring de codebase, génération d'assets pour un side project Godot, et review de bugs reportés en vidéo par des testeurs. Ce qui ressort n'est pas un saut spectaculaire sur tout, mais des changements précis qui modifient concrètement la façon dont on travaille avec un LLM en production.
La timeline OpenAI : du 23 avril au 5 mai#
Pour comprendre ce qui s'est joué, il faut remettre la séquence dans l'ordre.
Le 23 avril 2026, OpenAI annonce GPT-5.5 et GPT-5.5 Pro lors d'un événement interne diffusé en livestream. Les deux variantes sont déployées dans ChatGPT pour les utilisateurs Plus, Pro, Business et Enterprise. GPT-5.5 Pro est réservé aux niveaux Pro, Business et Enterprise. L'API ouvre dès le lendemain, 24 avril, avec un endpoint chat-latest qui pointe automatiquement sur le dernier snapshot stable.
Le 5 mai, deuxième acte : GPT-5.5 Instant prend la place de GPT-5.3 Instant comme modèle par défaut de ChatGPT. C'est la version optimisée pour la latence, celle que vous obtenez sans choisir de modèle dans le sélecteur. Le 7 mai, OpenAI ajoute une variante spécialisée, GPT-5.5-Cyber, en preview limitée pour les équipes cybersécurité.
Cette cadence est devenue la norme chez OpenAI depuis 2025 : annonce d'un modèle frontier, déclinaisons spécialisées dans les semaines qui suivent, dépréciation progressive du modèle précédent. GPT-5.3 restera disponible dans l'API encore trois mois pour les comptes payants. Trois mois, c'est court quand on a un produit en production qui dépend du comportement exact du modèle pour son orchestration ou ses tests de régression.
Le codename interne du modèle, "Spud", a fuité dans la System Card publiée par OpenAI. Détail anecdotique mais révélateur : OpenAI a documenté une bizarrerie comportementale détectée pendant le training, une tendance du modèle à mentionner "goblins, gremlins et autres créatures" sans raison apparente. Tracée à des signaux de récompense issus d'un personnage "Nerdy" utilisé en phase précédente, corrigée par filtrage des données d'entraînement. C'est le genre de détail qui rappelle que ces modèles restent des systèmes empiriques.
Ce que change la vidéo native#
C'est le point que je trouve le plus sous-estimé dans la couverture média. GPT-5.5 peut ingérer une vidéo en entrée et raisonner dessus directement. Pas via une transcription audio préalable, pas via une extraction d'images-clés, pas via un pipeline externe. Vous passez un fichier vidéo, le modèle vous renvoie un résumé structuré avec timestamps, points clés, et items d'action.
J'ai testé sur trois cas concrets :
Un bug report de 4 minutes filmé sur Loom par un testeur, montrant un crash dans une scène 3D. Le modèle a identifié le moment précis du crash (timestamp 2:37), extrait le message d'erreur affiché à l'écran avant la fermeture, et corrélé avec le pattern de mouvement de la caméra qui précédait. Trois informations qu'un humain doit normalement compiler en regardant la vidéo trois fois.
Une vidéo de gameplay de 20 minutes d'un playtest interne, avec demande de lister tous les moments où le testeur a hésité ou semblé confus. Le modèle a sorti une liste de 14 timestamps avec descriptions, dont 11 correspondaient à des points que notre équipe UX avait déjà identifiés. Les 3 autres étaient des micro-frictions qu'on avait ratées.
Une présentation technique d'une heure d'un collègue sur un nouveau framework. Demande : "extrais les décisions architecturales et les justifications". Sortie : une liste de 9 décisions avec leur justification, structurée par sujet. Comparable à ce qu'aurait produit une bonne prise de notes humaine.
Le coût n'est pas anodin. Une heure de vidéo consomme énormément de tokens dans la fenêtre de contexte. Mais le rapport temps gagné sur coût, pour ces use cases précis, penche clairement du bon côté quand on n'a pas le luxe de regarder la vidéo en entier.
Côté gaming, ça ouvre des workflows qu'on bricolait avant avec des pipelines compliqués : analyse automatique de playtests, scan de speedruns pour repérer les routes optimisées, indexation de bibliothèques de cutscenes. Plus besoin de transcrire d'abord puis raisonner ensuite. Le modèle voit et entend en même temps.
Benchmarks : 88,7 % SWE-Bench Verified, hallucinations -52 %#
Les chiffres officiels publiés dans la System Card et repris par Vellum, Tokenmix et BenchLM dressent un tableau précis.
Sur SWE-Bench Verified, le benchmark de référence pour l'évaluation des modèles sur des bugs réels de projets open source, GPT-5.5 atteint 88,7 %. C'est un saut de plusieurs points par rapport à GPT-5.4 et au-dessus de Claude Opus 4.7 sur ce benchmark précis (mais en dessous sur SWE-Bench Pro qui mesure des tâches de pull requests complètes, on y revient).
Sur Terminal-Bench 2.0, qui mesure la capacité à enchaîner des tâches dans un terminal sans intervention humaine, GPT-5.5 sort 82,7 %. Sur le même benchmark, Claude Opus 4.7 plafonne à 69,4 %. La différence reflète l'orientation agentic du modèle : OpenAI a clairement optimisé pour les boucles de travail autonome où le modèle doit s'auto-corriger.
Sur AIME 2025 (mathématiques compétition), GPT-5.5 Instant atteint 81,2 % versus 65,4 % pour GPT-5.3 Instant. Saut de 16 points qui reflète le travail fait sur la chaîne de raisonnement.
Sur MMMU-Pro, qui teste la compréhension multimodale, 76 % versus 69,2 % précédemment. Sur Video-MME, le benchmark vidéo, GPT-5.5 reste derrière Gemini 3.1 Pro (78,2 % pour Google contre 71,4 % pour OpenAI), ce qui n'a rien d'étonnant : Google a deux ans d'avance sur la vidéo native, c'est leur terrain historique.
Le chiffre qui m'intéresse le plus comme développeur, c'est la réduction d'hallucinations. OpenAI revendique 52,5 % d'erreurs en moins par rapport à GPT-5.3 Instant sur des prompts à enjeu fort en droit, médecine et finance. La méthodologie : panels d'experts qui scorent les réponses sur factualité et complétude. Le chiffre est crédible parce qu'il est mesuré sur des zones où les hallucinations sont les plus coûteuses, pas sur des prompts génériques où il est facile de truquer un benchmark.
En pratique, sur deux semaines d'usage intensif, j'ai noté moins de cas où le modèle invente des fonctions d'API qui n'existent pas. Pas zéro, mais nettement moins. Sur du Godot 4.4, j'ai vu zéro hallucination d'API sur une cinquantaine de requêtes, là où GPT-5.3 m'en sortait deux ou trois par session.
Comparatif : GPT-5.5 vs Claude Opus 4.7 vs Gemini 3.1 Pro#
C'est la question concrète qui se pose quand on a un budget cloud à allouer. Voici l'état du marché au 17 mai 2026.
Tarification API par million de tokens :
| Modèle | Input | Output | Context |
|---|---|---|---|
| GPT-5.5 | 5 $ | 30 $ | 1M tokens |
| GPT-5.5 Pro | 30 $ | 180 $ | 1M tokens |
| Claude Opus 4.7 | 5 $ | 25 $ | 200K + surcharge 2x au-delà |
| Gemini 3.1 Pro | variable | variable | 1M tokens |
GPT-5.5 et Claude Opus 4.7 se croisent autour de 5 $ en input. Sur la sortie, Claude est légèrement moins cher (25 vs 30). Mais OpenAI a publié un chiffre qui change la donne sur le coût total : sur des tâches équivalentes d'agentic coding, GPT-5.5 consommerait 72 % moins de tokens en sortie que Claude Opus 4.7. Si ce chiffre tient en production, la facture finale penche en faveur d'OpenAI malgré le tarif unitaire plus élevé.
Sur les benchmarks partagés entre les trois modèles, le verdict est nuancé :
Claude Opus 4.7 domine sur SWE-Bench Pro (64,3 % vs 58,6 % pour GPT-5.5), sur GPQA (questions scientifiques graduate-level), sur HLE (Humanity's Last Exam), sur MCP Atlas et FinanceAgent v1.1. Si votre charge de travail tourne autour du raisonnement scientifique pointu ou des PR complexes sur monorepos, Claude reste devant.
GPT-5.5 domine sur Terminal-Bench 2.0, BrowseComp (navigation web), OSWorld-Verified (utilisation d'OS) et CyberGym (cybersécurité offensive). Charges agentic, automatisation desktop, navigation : GPT-5.5 prend l'avantage.
Gemini 3.1 Pro reste devant sur la vidéo et l'analyse de très long contexte (jusqu'à 1 heure de vidéo en une seule passe, 900 images, 8,4 heures d'audio). Sur ARC-AGI-2, il sort 77,1 %, le score le plus élevé du marché.
Mon usage perso aujourd'hui : GPT-5.5 pour le coding agentic et les workflows d'exécution. Claude Opus 4.7 pour les sessions de design système ou de revue critique d'architecture. Gemini 3.1 Pro pour tout ce qui touche au traitement vidéo brut ou aux corpus PDF massifs. Le multi-modèle n'est plus un luxe d'expert, c'est devenu rationnel économiquement.
Use cases concrets côté dev#
Voici ce que j'ai testé qui marche réellement bien sur cette release.
Refactoring multi-fichiers en mode agentic. Donnez au modèle l'accès à votre repo (via Codex, Cursor ou Claude Code avec OpenAI en backend) et demandez-lui de faire passer un changement transversal. GPT-5.5 termine les tâches sans abandonner à mi-chemin, ce qui était un défaut chronique des versions précédentes. Il vérifie son propre travail, lance les tests, corrige les régressions. J'ai bouclé un refactor de migration de Vuex vers Pinia sur 47 fichiers en une session de 90 minutes, là où mes tentatives précédentes nécessitaient de babysitter le modèle.
Génération de scripts de tooling. Pour des scripts one-shot (parsing de logs, génération de fixtures, migration de schémas SQL), GPT-5.5 produit du code qui tourne au premier run dans la grande majorité des cas. La baisse d'hallucination se sent surtout ici : moins d'imports inventés, moins d'API qui n'existent pas.
Code review avant push. Workflow nouveau pour moi : je passe mon diff complet au modèle avant de commit, en lui demandant de chercher les regressions potentielles, les fuites de sécurité, et les patterns anti-idiomatiques. Le rapport est utile. Pas remplaçable par un humain senior, mais comparable à une review par un dev mid-level attentif. Coût marginal de quelques centimes par review.
Debug à partir de logs. GPT-5.5 lit bien les stack traces longues et les corrèle avec le code source quand on lui donne les deux. Sur un crash NPE Java que je n'arrivais pas à reproduire, le modèle a identifié la race condition en cinq minutes en croisant les timestamps des logs avec les sections du code accessibles.
Use cases gaming#
Sur ce terrain, GPT-5.5 ouvre des workflows que GPT-5 et même GPT-5.4 ne permettaient pas vraiment.
Génération de dialogues PNJ contextualisés. Le modèle peut prendre en compte des fiches de personnage longues (jusqu'à 50K tokens facilement) et générer des dialogues cohérents avec la personnalité, le contexte mondial et l'historique des interactions précédentes. Les outils comme PNJ autonomes basés sur IA gagnent en réalisme. Sur Godot, j'ai un prototype qui appelle l'API en runtime pour générer les réponses des PNJ secondaires, avec un coût moyen de 0,008 $ par interaction. Pas viable pour un AAA, parfait pour un indie ou un side project.
Pipeline d'assets 2D. En combinant GPT-5.5 pour la génération de prompts précis et un modèle d'image (DALL-E 4, Stable Diffusion 3.5), on industrialise la création d'assets cohérents par style. Le modèle de langage assure la cohérence du brief, pas seulement la traduction de l'idée en prompt.
Analyse de playtests via vidéo. Cas évoqué plus haut, mais qui mérite d'être souligné. Une équipe gameplay peut maintenant traiter 10 vidéos de playtest par jour avec un seul dev assigné à l'orchestration. Les insights remontent en quelques heures, pas en quelques jours.
Génération de scripts NPC scriptés. Pour les jeux qui veulent rester sur du dialogue scripté (par contrainte de cohérence narrative ou de coût runtime), GPT-5.5 produit des arbres de dialogue propres au format JSON ou Yarn directement utilisables. Plus rapide que d'écrire à la main, et la qualité narrative est tenable si on relit.
L'API et les variantes#
Trois variantes principales sont disponibles en API :
gpt-5.5: standard, 5 $/30 $, 1M tokens contexte, 128K tokens output maxgpt-5.5-pro: version raisonnement étendu, 30 $/180 $, même contextegpt-5.5-instant: optimisé latence, prix réduit, accessible aussi parchat-latest
OpenAI a aussi introduit un nouveau tier de pricing : Batch et Flex à moitié prix pour les workloads asynchrones, Priority à 2,5x pour les besoins latency-critical. Pour des prompts dépassant 272K tokens, le tarif double sur l'input et augmente de 50 % sur l'output pour toute la session. C'est important à anticiper si vous travaillez sur des codebases entières.
Le SDK Python et Node ont été mis à jour le 24 avril. Migration depuis GPT-5.4 : changer le model parameter suffit dans 95 % des cas. Quelques edge cases sur les function calls où le format de retour a légèrement changé sur les nested objects.
Adoption Cursor, Copilot et l'écosystème#
GitHub Copilot a intégré GPT-5.5 le 24 avril 2026, jour de l'ouverture de l'API. Disponibilité immédiate pour Copilot Pro+, Business et Enterprise. Le modèle est accessible dans VS Code, Visual Studio, JetBrains, Xcode, Eclipse, le CLI Copilot, github.com et l'agent cloud. À noter : Microsoft a posé un multiplicateur de 7,5x sur le coût de requête premium pour GPT-5.5, ce qui le rend significativement plus cher à consommer dans les environnements gouvernés. La gouvernance des coûts devient un sujet en soi.
Cursor de son côté a une approche différente. Au moment où j'écris, leur sélecteur de modèle propose GPT-5.4, Claude Opus 4.6, Claude Sonnet 4.6, Gemini 3 Pro et Grok Code. GPT-5.5 n'est pas encore listé officiellement dans le Pro plan, ce qui surprend vu l'écart de qualité avec GPT-5.4 sur les benchmarks coding. Probable que ça arrive dans les semaines qui viennent, mais à vérifier au cas par cas.
Cline, Continue.dev, Aider et les autres outils open source de coding assistance ont tous intégré le modèle dans les 48 heures suivant l'ouverture de l'API. La standardisation autour des endpoints OpenAI rend ces intégrations triviales aujourd'hui.
Microsoft 365 Copilot a aussi reçu GPT-5.5 en mode agent dans la même fenêtre. Pour les workflows productivity (résumé de réunions, draft de mails, génération de slides), le gain de qualité est notable, mais c'est moins critique que côté dev.
Ce qui reste à surveiller#
GPT-5.5 n'est pas la fin de l'histoire 2026. OpenAI a déjà laissé entendre qu'une variante "agent" complète sortira au Q3, capable de naviguer des interfaces graphiques complexes sur des sessions de plusieurs heures sans supervision. Anthropic prépare sa propre réponse, probablement Claude Opus 5 d'ici l'été. Google teste en interne Gemini 4 selon des fuites récentes.
Le rythme d'itération empêche tout choix de modèle "définitif". Concevez vos systèmes pour pouvoir switcher de fournisseur sans réécrire votre logique métier. C'est exactement le pattern que les frameworks comme Vercel AI SDK ou LangChain facilitent depuis un an.
Côté risque : la dépréciation rapide de GPT-5.3 (trois mois seulement après le remplacement) pose un problème de stabilité pour les produits en production. Tester sur le snapshot stable, pas sur chat-latest, si vous ne voulez pas de surprise.
GPT-5.5 Instant est devenu mon modèle par défaut pour 70 % de mes prompts. Pas parce qu'il est le meilleur sur tout, mais parce qu'il offre le meilleur ratio qualité/latence/coût pour mes use cases. Pour le reste, je garde Claude et Gemini à portée d'API, et je choisis selon le job. C'est l'écosystème qui s'est installé, et qui devrait tenir au moins jusqu'à l'automne.
Sources#
- OpenAI releases GPT-5.5 Instant, a new default model for ChatGPT (TechCrunch, 5 mai 2026)
- OpenAI releases GPT-5.5, bringing company one step closer to an AI super app (TechCrunch, 23 avril 2026)
- GPT-5.5, Wikipedia
- GPT-5.5 Multimodal Capabilities: Images, Audio, Video & More (Framia)
- GPT-5.5 Review: 88,7 % SWE-Bench, 92,4 % MMLU, 2x Price Tag (TokenMix)
- GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks (LLM-Stats)
- GPT-5.5 is generally available for GitHub Copilot (GitHub Changelog, 24 avril 2026)
- Gemini 3.1 Pro: Pricing, Context Window, Benchmarks, API & More (LLM-Stats)





