GPT-5.5
Explorez les scores de benchmark, points forts par genre, limites et exemples récents de GPT-5.5.
Apercu du Modele
Publie
2026-04-23
Contexte
1M tokens
Entree
$5.00 / 1M
Sortie
$30.00 / 1M
Le modèle phare le plus récent d'OpenAI, publié le 23 avril 2026. GPT-5.5 est calibré pour le travail agentique : codage de longue haleine, utilisation de l'ordinateur, recherche web et exécution de tâches enchaînant des outils sont les axes prioritaires.
Par rapport à GPT-5.4, les gains visibles concernent l'ingénierie logicielle (SWE-Bench Pro 58.6% end-to-end en une seule passe, Expert-SWE 73.1% sur des tâches de ~20 heures) et la maîtrise de logiciels réels (Terminal-Bench 2.0 82.7%, OSWorld-Verified 78.7%). Tau2-bench Telecom atteint 98.0% sans ajustement de prompt.
Le modèle offre un contexte de 1M tokens via les APIs Responses et Chat Completions, une sortie maximale de 128k, et une tarification qui double celle de 5.4 côté sortie ($5 entrée / $30 sortie par 1M tokens). Une variante `gpt-5.5-pro` plus précise existe séparément à tarif premium ; Orivel n'utilise que la variante standard `gpt-5.5`.
Changements
- Publié le 23 avril 2026 comme successeur de GPT-5.4
- Focus : codage agentique et exécution de tâches de longue haleine
- SWE-Bench Pro 58.6% — davantage de tâches résolues end-to-end en une seule passe
- Expert-SWE 73.1% sur des tâches au temps humain estimé à ~20 heures
- Terminal-Bench 2.0 82.7%, OSWorld-Verified 78.7%, Tau2-bench Telecom 98.0%, GDPval 84.9%
- Contexte 1M tokens dans l'API (400K dans Codex) ; sortie maximale 128k
- Tarif : $5 entrée / $30 sortie par 1M tokens — environ 2× le tarif de sortie de GPT-5.4
- Batch/Flex à 50% du standard ; Priority à 2,5× le standard
- Date de coupe des connaissances inchangée par rapport à GPT-5.4
Performance Globale
Classement general
#5
Taux de victoire global
Score moyen
Victoires
28
Nombre d exemples
45
Taux de victoire par modele
Comparer par genre
Genres forts
Planification
Score moyen
Genre Average
Taux de victoire
Nombre d exemples
2
Classement par genre
2 / 12
Victoires
2
Programmation
Score moyen
Genre Average
Taux de victoire
Nombre d exemples
2
Classement par genre
6 / 13
Victoires
1
Brainstorming
Score moyen
Genre Average
Taux de victoire
Nombre d exemples
2
Classement par genre
1 / 12
Victoires
2
Écriture créative
Score moyen
Genre Average
Taux de victoire
Nombre d exemples
1
Classement par genre
4 / 12
Victoires
1
Conception de systèmes
Score moyen
Genre Average
Taux de victoire
Nombre d exemples
1
Classement par genre
3 / 12
Victoires
1
Genres plus faibles
Rédaction professionnelle
Score moyen
Genre Average
Taux de victoire
Nombre d exemples
1
Classement par genre
11 / 12
Victoires
0
Jeu de rôle
Score moyen
Genre Average
Taux de victoire
Nombre d exemples
2
Classement par genre
10 / 12
Victoires
0
Explication
Score moyen
Genre Average
Taux de victoire
Nombre d exemples
1
Classement par genre
11 / 12
Victoires
0
Persuasion
Score moyen
Genre Average
Taux de victoire
Nombre d exemples
1
Classement par genre
10 / 12
Victoires
0
Résumé
Score moyen
Genre Average
Taux de victoire
Nombre d exemples
1
Classement par genre
4 / 13
Victoires
1
Forces par critere d evaluation
Score moyen par critere (sur 10)
Quantite
Securite
Profondeur
Qualite de l architecture
Exactitude
Respect des consignes
Scalabilite et fiabilite
Qualite du style
Completude
Empathie
Diversite
Qualite du raisonnement
Taches recentes
Brainstorming
Plan de déplacements durables pour une ville de taille moyenne
Élaborez une liste exhaustive d'idées innovantes et pratiques pour améliorer les déplacements écologiques dans une ville de taille moyenne. Vos idées doivent êt...
Planification
Plan d'action pour la Journée de nettoyage communautaire
Vous êtes l'organisateur principal de la 'Greenwood Neighborhood Association'. Votre tâche est de créer un plan d'action détaillé pour un événement 'Community C...
Programmation
Implémenter un ordonnanceur de tâches basé sur les dépendances en Python
Écrivez une fonction ou une classe Python qui planifie une liste de tâches en fonction de leurs dépendances. L'ordonnanceur doit déterminer l'ordre dans lequel...
Jeu de rôle
Jeu de rôle Service client : Le joueur frustré
Vous êtes un représentant du service client pour Nexus Games, nommé Alex. Votre persona est calme, empathique et compétent. Vous devez respecter la politique de...
Accompagnement
Un·e ami·e qui annule sans cesse des plans
Un·e ami·e proche a annulé nos plans trois fois au cours des deux derniers mois, généralement au dernier moment, en invoquant le fait d’être « trop fatigué·e »...
Persuasion
Lettre persuasive pour un jardin communautaire
Rédigez une lettre persuasive adressée à votre conseil municipal local. Votre objectif est de les convaincre d'approuver une proposition visant à convertir le t...
Écriture créative
La dernière lettre du gardien de phare
Écrivez une nouvelle (entre 600 et 900 mots) intitulée « La dernière lettre du gardien de phare ». Contraintes et exigences : - La nouvelle doit être encadrée...
Analyse
Choix d'une base de données pour une startup SaaS en croissance
Vous conseillez le CTO d'une startup B2B SaaS âgée de deux ans qui fournit un logiciel de gestion de projet à des entreprises de taille moyenne. La configuratio...
Debats recents
Debats
Colonisation de Mars : le prochain grand bond de l'humanité ou la plus grande distraction...
Cette discussion explore la question de savoir si l'humanité devrait investir d'importantes ressources pour établir une colonie permanente et autosuffisante sur Mars. Le débat pèse les avantages potentiels pour la survie à long terme de l'espèce contre les problèmes immédiats et pressants sur Terre qui pourraient être résolus avec les mêmes ressources.
Debats
Les tests standardisés dans les écoles : une mesure équitable du mérite ou une barrière dé...
Les tests standardisés, tels que le SAT, l'ACT et divers examens au niveau des États, sont depuis longtemps une pierre angulaire du système éducatif, utilisés pour l'évaluation des élèves, l'évaluation des établissements et les admissions à l'université. Les partisans soutiennent qu'ils fournissent un référentiel objectif pour mesurer la réussite académique à travers des populations diverses. Cependant, les critiques affirment que ces tests sont culturellement biaisés, favorisent les élèves issus de milieux privilégiés et ne parviennent pas à saisir les véritables aptitudes ou le potentiel d'un élève, ce qui a conduit à des appels à leur abolition au profit de méthodes d'évaluation plus holistiques. Le débat porte sur la question de savoir si les tests standardisés sont un outil essentiel pour la responsabilisation et la méritocratie ou un système discriminatoire qui perpétue les inégalités.
Debats
La semaine de travail de quatre jours : une révolution de l'équilibre vie professionnelle-...
Le concept d'une semaine de travail standard de quatre jours, sans réduction de salaire, gagne du terrain à l'échelle mondiale comme moyen d'améliorer le bien-être et la productivité des employés. Le débat se demande si ce modèle est une évolution durable et bénéfique du lieu de travail moderne ou un idéal impraticable qui crée plus de problèmes qu'il n'en résout pour les entreprises et l'économie.
Debats
Revenu de base universel : une voie vers la prospérité ou la ruine économique ?
Les gouvernements devraient-ils mettre en place un revenu de base universel (RBU), versant à chaque citoyen adulte un paiement régulier et inconditionnel suffisant pour couvrir les frais de subsistance de base, indépendamment de leur situation professionnelle ?
Debats
L'adoption de calendriers scolaires toute l'année
Ce débat porte sur la question de savoir si les districts scolaires K-12 devraient passer du calendrier académique traditionnel de neuf mois avec de longues vacances d'été à un modèle toute l'année. L'enseignement toute l'année implique le même nombre de journées d'instruction mais les répartit sur l'ensemble de l'année avec des pauses plus courtes et plus fréquentes. Les partisans estiment que ce système prévient la 'régression estivale' — la perte d'apprentissage que subissent les élèves pendant la longue pause estivale — et permet un enseignement plus continu. Les opposants soutiennent qu'il perturbe la vie familiale, complique la garde d'enfants, limite les possibilités de camps d'été et d'emplois, et peut conduire à l'épuisement des enseignants et des élèves.
Debats
L'IA comme principal outil de recrutement
Les entreprises devraient-elles être autorisées à utiliser des algorithmes d'intelligence artificielle (IA) comme principal outil pour le tri, la présélection et la sélection des candidats à un emploi ?
Debats
Abolition des notes alphabétiques traditionnelles de la maternelle à la terminale
Les écoles de la maternelle à la terminale devraient-elles remplacer le système traditionnel de notation par lettres A-F par des méthodes d'évaluation alternatives, telles que des retours narratifs, des portfolios ou un système réussite/échec ?
Debats
Les pays riches devraient-ils ouvrir leurs frontières aux réfugiés climatiques ?
Alors que la montée du niveau de la mer, la désertification et les phénomènes météorologiques extrêmes déplacent un nombre croissant de personnes, la pression s'accroît sur les pays riches et fortement émetteurs pour qu'ils acceptent celles et ceux contraints de fuir leur foyer en raison du changement climatique. Le droit international actuel en matière de réfugiés ne reconnaît pas formellement les « réfugiés climatiques », laissant les populations déplacées dans un vide juridique. Le débat porte sur la question de savoir si les pays riches ont une obligation morale et pratique d'ouvrir leurs frontières aux personnes déplacées par des impacts climatiques qu'ils ont disproportionnellement causés, ou si une telle politique serait impraticable et contre-productive.