Claude Sonnet 4.6
Explorez les scores de benchmark, points forts par genre, limites et exemples récents de Claude Sonnet 4.6.
Apercu du Modele
Publie
2025-11-24
Contexte
1M tokens
Entree
$3.00 / 1M
Sortie
$15.00 / 1M
Le cheval de trait équilibré d'Anthropic — la meilleure combinaison entre rapidité et intelligence dans la gamme Claude 4. Gère la plupart des tâches courantes avec un contexte de 1M tokens.
Changements
- Contexte 1M tokens ; jusqu'à 64k tokens de sortie
- Tarif : $3 entrée / $15 sortie par 1M tokens
- Extended thinking et Adaptive thinking pris en charge
- Accès Priority Tier disponible pour les charges de production
- Date de coupe des connaissances : août 2025
Performance Globale
Classement general
#2
Taux de victoire global
Score moyen
Victoires
78
Nombre d exemples
105
Taux de victoire par modele
Comparer par genre
Genres forts
Questions éducatives
Score moyen
Genre Average
Taux de victoire
Nombre d exemples
4
Classement par genre
4 / 12
Victoires
3
Jeu de rôle
Score moyen
Genre Average
Taux de victoire
Nombre d exemples
6
Classement par genre
3 / 11
Victoires
6
Persuasion
Score moyen
Genre Average
Taux de victoire
Nombre d exemples
5
Classement par genre
3 / 12
Victoires
5
Débat
Score moyen
Genre Average
Taux de victoire
Nombre d exemples
33
Classement par genre
5 / 13
Victoires
29
Accompagnement
Score moyen
Genre Average
Taux de victoire
Nombre d exemples
4
Classement par genre
4 / 12
Victoires
4
Genres plus faibles
Programmation
Score moyen
Genre Average
Taux de victoire
Nombre d exemples
4
Classement par genre
6 / 12
Victoires
2
Écriture créative
Score moyen
Genre Average
Taux de victoire
Nombre d exemples
4
Classement par genre
6 / 11
Victoires
2
Forces par critere d evaluation
Score moyen par critere (sur 10)
Quantite
Securite
Adequation au public
Ethique et securite
Empathie
Fidelite
Coherence du personnage
Force de persuasion
Couverture
Clarte
Respect des consignes
Qualite du raisonnement
Taches recentes
Jeu de rôle
Jeu de rôle Service client : Le joueur frustré
Vous êtes un représentant du service client pour Nexus Games, nommé Alex. Votre persona est calme, empathique et compétent. Vous devez respecter la politique de...
Persuasion
Lettre persuasive pour un jardin communautaire
Rédigez une lettre persuasive adressée à votre conseil municipal local. Votre objectif est de les convaincre d'approuver une proposition visant à convertir le t...
Explication
Expliquer la technologie GPS à un lycéen
Expliquez comment le Système de Positionnement Global (GPS) fonctionne à un élève de lycée curieux. Votre élève a une compréhension de base de la physique (par...
Humour
Routine de stand-up pour une conférence tech
Écrivez une routine de stand-up comique de 2 minutes pour un·e humoriste se produisant lors d'une grande conférence tech. Le public est composé principalement d...
Résumé
Résumer l'explication de la sélection naturelle par Darwin
Lisez l'extrait suivant de Charles Darwin, «De l'origine des espèces». Rédigez un résumé concis du texte en un seul essai de pas plus de 250 mots. Votre résumé...
Programmation
Implémenter un limiteur de débit Token Bucket thread-safe en Python
Écrivez une classe Python nommée `TokenBucketRateLimiter` qui implémente l'algorithme du token bucket pour la limitation de débit. L'implémentation doit être th...
Planification
Plan de reprise après coupure de courant pour une petite clinique
Vous conseillez une petite clinique ambulatoire après qu'une tempête nocturne a provoqué une panne de courant totale. La clinique ouvre aux patients à 8:00 AM,...
Analyse
Analyse des politiques de transport urbain
Analysez les trois politiques de transport proposées pour la ville fictive de Riverbend. Sur la base du contexte fourni, recommandez la meilleure politique pour...
Debats recents
Debats
Évaluations standardisées : une mesure juste ou un indicateur défaillant ?
Les tests standardisés sont largement utilisés dans les systèmes éducatifs pour évaluer les performances des élèves, mesurer l'efficacité des enseignants et comparer les établissements scolaires. Leurs partisans soutiennent qu'ils fournissent une référence objective et cohérente pour la réussite scolaire et permettent de tenir les établissements responsables. Leurs détracteurs affirment qu'ils restreignent le programme, génèrent un stress excessif et sont biaisés à l'encontre de certaines populations d'élèves, ne parvenant pas à rendre compte de manière fidèle des capacités d'un élève.
Debats
La semaine de travail de quatre jours : progrès ou problème ?
Ce débat porte sur la question de savoir si la transition vers une semaine de travail de quatre jours, sans perte de salaire, devrait devenir la norme pour l'emploi à temps plein dans la plupart des secteurs.
Debats
Les bibliothèques publiques devraient-elles réorienter une part importante de leur finance...
Les bibliothèques publiques sont confrontées à la pression de se moderniser tout en servant des usagers aux besoins variés. Doivent-elles rediriger une part substantielle de leurs budgets des livres imprimés et autres supports physiques vers les livres électroniques, les bases de données en ligne, les programmes d'alphabétisation numérique et l'accès aux technologies ?
Debats
Les employeurs devraient-ils adopter la semaine de travail de quatre jours comme modèle st...
Un nombre croissant d'organisations expérimentent des semaines de travail de quatre jours tout en maintenant les salaires. Les partisans soutiennent qu'une semaine de travail standard plus courte peut améliorer la productivité, le bien-être et la rétention, tandis que les critiques affirment qu'elle peut réduire la flexibilité, augmenter les coûts et échouer dans de nombreuses industries. Les employeurs devraient-ils adopter largement la semaine de travail de quatre jours comme modèle par défaut pour le temps plein ?
Debats
Les gouvernements devraient-ils obliger les plateformes de médias sociaux à vérifier l'ide...
Débat sur la question de savoir si les gouvernements devraient imposer la vérification de l'identité réelle pour chaque compte de réseau social afin de réduire le harcèlement, la fraude et la désinformation.
Debats
Génie génétique humain : un chemin vers le progrès ou un précédent périlleux ?
L'humanité doit-elle poursuivre le développement des technologies de génie génétique pour améliorer des traits humains, tels que l'intelligence et les capacités physiques, ou leur utilisation doit-elle être strictement limitée à la prévention des maladies héréditaires ?
Debats
Les gouvernements devraient-ils réglementer strictement l'utilisation de l'IA dans le recr...
De nombreux employeurs utilisent désormais des outils d'IA pour trier les CV, classer les candidats, analyser les entretiens vidéo et prédire la performance au travail. Certains soutiennent que ces systèmes peuvent améliorer l'efficacité et réduire les biais humains, tandis que d'autres avertissent qu'ils peuvent encoder des discriminations, porter atteinte à la vie privée et rendre les décisions injustes difficiles à contester. Les gouvernements doivent-ils imposer des règles strictes sur la façon dont l'IA peut être utilisée dans le recrutement, incluant la transparence, des audits et des limites à la prise de décision automatisée ?
Debats
L'État algorithmique : L'IA devrait-elle orienter les décisions de politique publique ?
L'utilisation de systèmes d'IA avancés pour analyser d'immenses ensembles de données et recommander, voire décider, des politiques publiques devient de plus en plus réalisable. Les partisans soutiennent que l'IA peut créer des politiques plus efficaces, fondées sur les données et impartiales dans des domaines tels que l'aménagement urbain, l'allocation des ressources et la santé publique. Les opposants craignent que cela ne conduise à un gouvernement en « boîte noire », où les décisions manquent d'empathie humaine, de responsabilité, et sont susceptibles de contenir des biais cachés dans les données, pouvant potentiellement marginaliser les populations vulnérables.