Claude Opus 4.8
Explorez les scores de benchmark, points forts par genre, limites et exemples récents de Claude Opus 4.8.
Apercu du Modele
Publie
2026-05-28
Contexte
1M tokens
Entree
$5.00 / 1M
Sortie
$25.00 / 1M
Claude Opus 4.8, publié le 28 mai 2026, a été le modèle phare d'Anthropic jusqu'à ce que Claude Fable 5 prenne la première place le 9 juin 2026. Sur Orivel, il reste un modèle de premier plan pour le raisonnement complexe, le codage agentique de longue haleine et le travail de connaissance à forte autonomie, à moitié prix par rapport à Fable 5.
Les principaux gains par rapport à Opus 4.7 sont un jugement plus aiguisé, plus d'honnêteté sur sa propre progression et la capacité de travailler en autonomie plus longtemps. Il est environ quatre fois moins susceptible que son prédécesseur de laisser passer des défauts dans son propre code et domine en ingénierie logicielle agentique, avec 69,2% sur SWE-Bench Pro devant GPT-5.5 et Gemini 3.1 Pro.
Le modèle conserve le contexte de 1M tokens et jusqu'à 128k tokens de sortie sur la Messages API. Le tarif reste inchangé par rapport à Opus 4.7 ($5 entrée / $25 sortie par 1M tokens), date de coupe des connaissances : janvier 2026. Les nouvelles surfaces ajoutent un contrôle `effort` (par défaut high) et une préversion de recherche Dynamic Workflows pour de grandes tâches agentiques parallélisées.
Changements
- Publié le 28 mai 2026 comme successeur de Claude Opus 4.7 (environ six semaines plus tard)
- Jugement plus aiguisé, plus d'honnêteté sur sa progression et travail autonome plus long
- ~4x moins susceptible qu'Opus 4.7 de laisser passer des défauts dans son propre code
- SWE-Bench Pro 69,2% — devant GPT-5.5 et Gemini 3.1 Pro en codage agentique
- Gains en raisonnement multidisciplinaire, utilisation agentique de l'ordinateur et analyse financière agentique
- Contexte 1M tokens ; jusqu'à 128k tokens de sortie sur la Messages API
- Paramètre `effort` (par défaut high) pour ajuster l'effort du modèle par réponse
- Préversion de recherche Dynamic Workflows pour des tâches à sous-agents parallèles ; fast mode à 2,5x la vitesse
- Tarif identique à Opus 4.7 : $5 entrée / $25 sortie par 1M tokens
- Adaptive thinking ; disponible via Claude API, Amazon Bedrock, Vertex AI et Microsoft Foundry
- Date de coupe des connaissances et des données d'entraînement : janvier 2026
Performance Globale
Classement general
#1
Taux de victoire global
Score moyen
Victoires
16
Nombre d exemples
18
Taux de victoire par modele
Comparer par genre
Genres forts
Humour
Score moyen
Genre Average
Taux de victoire
Nombre d exemples
1
Classement par genre
1 / 12
Victoires
1
Brainstorming
Score moyen
Genre Average
Taux de victoire
Nombre d exemples
1
Classement par genre
2 / 12
Victoires
1
Résumé
Score moyen
Genre Average
Taux de victoire
Nombre d exemples
1
Classement par genre
1 / 13
Victoires
1
Accompagnement
Score moyen
Genre Average
Taux de victoire
Nombre d exemples
1
Classement par genre
1 / 12
Victoires
1
Débat
Score moyen
Genre Average
Taux de victoire
Nombre d exemples
9
Classement par genre
3 / 13
Victoires
9
Genres plus faibles
Génération d’idées
Score moyen
Genre Average
Taux de victoire
Nombre d exemples
1
Classement par genre
11 / 13
Victoires
0
Questions éducatives
Score moyen
Genre Average
Taux de victoire
Nombre d exemples
1
Classement par genre
12 / 12
Victoires
0
Forces par critere d evaluation
Score moyen par critere (sur 10)
Quantite
Fidelite
Securite
Respect des consignes
Utilite
Structure
Couverture
Ethique et securite
Empathie
Pertinence
Capacite de synthese
Coherence
Taches recentes
Génération d’idées
Solutions créatives pour le gaspillage alimentaire en supermarché
Une grande chaîne nationale de supermarchés souhaite réduire de manière significative la quantité d'aliments comestibles qu'elle jette. Elle fait déjà don des e...
Questions éducatives
Contrôle hormonal du cycle menstruel
Une patiente est diagnostiquée avec une affection génétique rare entraînant l'incapacité complète de son hypophyse à produire l'hormone lutéinisante (LH), tandi...
Brainstorming
Générer des idées de programmes peu coûteux pour adolescents en bibliothèque
Une bibliothèque publique de taille moyenne souhaite augmenter la fréquentation en personne des adolescents âgés de 13 à 18 ans pendant une période d'été de 10...
Résumé
Résumer la présentation générale du Télescope spatial James Webb
Lisez l'article suivant sur le Télescope spatial James Webb (JWST) et rédigez un résumé concis. Votre résumé doit être un seul paragraphe cohérent de 150 à 200...
Accompagnement
Dire non à un voyage coûteux entre amis
Un utilisateur demande un conseil personnel du quotidien : « Mon ami proche organise un voyage d'anniversaire de quatre jours qui coûterait plus cher que ce que...
Humour
Humour familial : Le guide audio de musée trop honnête
Écrivez un court dialogue comique entre un visiteur de musée et un guide audio exceptionnellement honnête dans une exposition fictive appelée « Objets du quotid...
Conception de systèmes
Concevoir un système de tableau blanc collaboratif en temps réel
Vous devez concevoir une architecture système de haut niveau pour une application de tableau blanc collaborative en temps réel. **Exigences principales :** 1....
Rédaction professionnelle
Courriel client concernant un retard du déploiement d'une fonctionnalité
Rédigez un courriel destiné aux clients, émanant du Responsable produit d'une entreprise B2B SaaS, annonçant un retard du déploiement prévu d'une fonctionnalité...
Debats recents
Debats
Les gouvernements devraient-ils imposer la semaine de travail de quatre jours aux grands e...
Les gouvernements devraient-ils exiger que les grands employeurs adoptent une semaine de travail standard de quatre jours (32 heures) sans réduction de salaire, ou la durée de la semaine de travail devrait-elle rester principalement une question à négocier entre employeurs et employés ?
Debats
Les écoles devraient-elles remplacer les notes alphabétiques par des évaluations narrative...
Les écoles primaires et secondaires devraient-elles abandonner les notes traditionnelles sous forme de lettres ou de pourcentages et utiliser à la place des retours écrits, des portfolios et des entretiens avec les élèves pour évaluer les apprentissages ?
Debats
Les tests standardisés dans les écoles : une mesure équitable du mérite ou une barrière dé...
Les tests standardisés, tels que le SAT, l'ACT et divers examens au niveau des États, sont depuis longtemps une pierre angulaire du système éducatif, utilisés pour l'évaluation des élèves, l'évaluation des établissements et les admissions à l'université. Les partisans soutiennent qu'ils fournissent un référentiel objectif pour mesurer la réussite académique à travers des populations diverses. Cependant, les critiques affirment que ces tests sont culturellement biaisés, favorisent les élèves issus de milieux privilégiés et ne parviennent pas à saisir les véritables aptitudes ou le potentiel d'un élève, ce qui a conduit à des appels à leur abolition au profit de méthodes d'évaluation plus holistiques. Le débat porte sur la question de savoir si les tests standardisés sont un outil essentiel pour la responsabilisation et la méritocratie ou un système discriminatoire qui perpétue les inégalités.
Debats
Les transports publics devraient-ils être gratuits pour tous les usagers ?
De nombreuses villes sont confrontées à la congestion, à la pollution, au financement des transports et à un accès inégal aux services de mobilité. Une proposition consiste à supprimer les tarifs des bus, trams et métros pour tout le monde, en finançant le fonctionnement par des impôts ou d'autres recettes publiques. Les villes devraient-elles rendre les transports publics gratuits pour tous les usagers, ou devraient-elles maintenir les tarifs et concentrer les subventions sur ceux qui en ont le plus besoin ?
Debats
Le rôle des tests standardisés dans l'éducation
Les tests standardisés sont largement utilisés pour mesurer l'aptitude des élèves, les acquis scolaires et la performance des établissements. Les partisans soutiennent qu'ils offrent un repère objectif pour la responsabilisation et la comparaison, tandis que les détracteurs estiment qu'ils sont inéquitables, source de stress et favorisent un programme scolaire étroit. Ce débat porte sur la question de savoir si les tests standardisés doivent rester une pierre angulaire du système éducatif.
Debats
La semaine de travail de quatre jours : une révolution de l'équilibre vie professionnelle-...
Le concept d'une semaine de travail standard de quatre jours, sans réduction de salaire, gagne du terrain à l'échelle mondiale comme moyen d'améliorer le bien-être et la productivité des employés. Le débat se demande si ce modèle est une évolution durable et bénéfique du lieu de travail moderne ou un idéal impraticable qui crée plus de problèmes qu'il n'en résout pour les entreprises et l'économie.
Debats
Les villes devraient-elles remplacer la plupart des places de stationnement en voirie par...
De nombreuses villes disposent d'un espace limité au niveau du trottoir qui est actuellement utilisé pour le stationnement de voitures privées. Les gouvernements locaux devraient-ils supprimer la plupart des places de stationnement en voirie sur les axes principaux et reconfigurer cet espace pour des pistes cyclables protégées, des trottoirs plus larges, des arbres et des bancs publics ?
Debats
Les villes devraient-elles interdire les voitures particulières dans les centres-villes ?
De nombreuses villes envisagent de restreindre ou d'interdire les voitures particulières dans les quartiers centraux densément peuplés afin de réduire les embouteillages, la pollution et les décès liés à la circulation. Les gouvernements municipaux doivent-ils aller vers des centres-villes sans voitures, ou doivent-ils préserver un large accès aux véhicules privés ?