Claude Sonnet 4.6
Explora puntuaciones de benchmark, fortalezas por género, debilidades y ejemplos recientes de Claude Sonnet 4.6.
Resumen del Modelo
Publicado
2025-11-24
Contexto
1M tokens
Entrada
$3.00 / 1M
Salida
$15.00 / 1M
El caballo de batalla equilibrado de Anthropic: la mejor combinación de velocidad e inteligencia en la línea Claude 4. Cubre la mayoría de tareas cotidianas con una ventana de contexto de 1M tokens.
Cambios
- Ventana de contexto de 1M tokens; hasta 64k tokens de salida
- Precio: $3 entrada / $15 salida por 1M tokens
- Soporta Extended thinking y Adaptive thinking
- Acceso a Priority Tier disponible para cargas de producción
- Corte de conocimiento: agosto de 2025
Rendimiento General
Ranking general
#2
Tasa de victoria global
Puntuacion media
Victorias
78
Muestras
105
Tasa de victoria por modelo
| Modelo | Victorias | Derrotas | Empates | Tasa de victoria | Detalle |
|---|---|---|---|---|---|
| Google Gemini 2.5 Pro | 16 | 1 | 0 |
94%
|
Ver comparacion y evaluacion de Claude Sonnet 4.6 vs Gemini 2.5 Pro |
| OpenAI GPT-5.4 | 11 | 6 | 0 |
65%
|
Ver comparacion y evaluacion de Claude Sonnet 4.6 vs GPT-5.4 |
| Google Gemini 2.5 Flash | 16 | 0 | 0 |
100%
|
Ver comparacion y evaluacion de Claude Sonnet 4.6 vs Gemini 2.5 Flash |
| Google Gemini 2.5 Flash-Lite | 16 | 0 | 0 |
100%
|
Ver comparacion y evaluacion de Claude Sonnet 4.6 vs Gemini 2.5 Flash-Lite |
| OpenAI GPT-5 mini | 7 | 9 | 0 |
44%
|
Ver comparacion y evaluacion de Claude Sonnet 4.6 vs GPT-5 mini |
| OpenAI GPT-5.2 | 6 | 10 | 0 |
38%
|
Ver comparacion y evaluacion de Claude Sonnet 4.6 vs GPT-5.2 |
| OpenAI GPT-5.5 | 6 | 1 | 0 |
86%
|
Ver comparacion y evaluacion de Claude Sonnet 4.6 vs GPT-5.5 |
Comparar por genero
Generos fuertes
Preguntas educativas
Puntuacion media
Genre Average
Tasa de victoria
Muestras
4
Ranking por genero
4 / 12
Victorias
3
Juego de roles
Puntuacion media
Genre Average
Tasa de victoria
Muestras
6
Ranking por genero
3 / 11
Victorias
6
Persuasión
Puntuacion media
Genre Average
Tasa de victoria
Muestras
5
Ranking por genero
3 / 12
Victorias
5
Debate
Puntuacion media
Genre Average
Tasa de victoria
Muestras
33
Ranking por genero
5 / 13
Victorias
29
Acompañamiento
Puntuacion media
Genre Average
Tasa de victoria
Muestras
4
Ranking por genero
4 / 12
Victorias
4
Generos mas flojos
Programación
Puntuacion media
Genre Average
Tasa de victoria
Muestras
4
Ranking por genero
6 / 12
Victorias
2
Escritura creativa
Puntuacion media
Genre Average
Tasa de victoria
Muestras
4
Ranking por genero
6 / 11
Victorias
2
Fortalezas por criterio de evaluacion
Puntuacion media por criterio (sobre 10)
Cantidad
Seguridad
Adecuacion al publico
Etica y seguridad
Empatia
Fidelidad
Consistencia del personaje
Persuasion
Cobertura
Claridad
Seguimiento de instrucciones
Calidad del razonamiento
Tareas recientes
Juego de roles
Juego de roles de atención al cliente: El jugador frustrado
Eres un representante de atención al cliente de Nexus Games, llamado Alex. Tu personalidad es tranquila, empática y experta. Debes ceñirte a la política de la e...
Persuasión
Carta persuasiva para un jardín comunitario
Escriba una carta persuasiva dirigida al consejo municipal local. Su objetivo es convencerlos de aprobar una propuesta para convertir el terreno vacío y cubiert...
Explicación
Explicar la tecnología GPS a un/a adolescente
Explica cómo funciona el Sistema de Posicionamiento Global (GPS) a un estudiante de secundaria curioso. Tu estudiante tiene una comprensión básica de la física...
Humor
Rutina de stand-up para una conferencia tecnológica
Escribe una rutina de comedia stand-up de 2 minutos para un comediante que actúa en una importante conferencia tecnológica. El público está compuesto principalm...
Resumen
Resumen de la explicación de Darwin sobre la Selección Natural
Lea el siguiente extracto de Charles Darwin de 'Sobre el origen de las especies'. Escriba un resumen conciso del texto en un solo ensayo de no más de 250 palabr...
Programación
Implementar un limitador de tasa Token Bucket seguro para subprocesos en Python
Escribe una clase en Python llamada `TokenBucketRateLimiter` que implemente el algoritmo Token Bucket para limitar la tasa. La implementación debe ser segura pa...
Planificación
Plan de recuperación tras un corte de energía para una clínica pequeña
Estás asesorando a una pequeña clínica ambulatoria después de que una tormenta nocturna causara un corte total de energía. La clínica abre a los pacientes a las...
Análisis
Análisis de políticas de transporte urbano
Analice las tres políticas de transporte propuestas para la ciudad ficticia de Riverbend. Basándose en el contexto proporcionado, recomiende la mejor política p...
Debates recientes
Debates
Pruebas estandarizadas: ¿Una medida justa o una métrica defectuosa?
Las pruebas estandarizadas se utilizan ampliamente en los sistemas educativos para evaluar el rendimiento estudiantil, evaluar la eficacia docente y comparar escuelas. Los defensores sostienen que ofrecen un punto de referencia objetivo y coherente para el logro académico y que hacen responsables a las escuelas. Los críticos argumentan que estrechan el currículo, generan estrés indebido y están sesgadas contra determinadas poblaciones estudiantiles, sin captar una imagen verdadera de las capacidades de un estudiante.
Debates
La semana laboral de cuatro días: ¿progreso o problema?
Este debate se centra en si la transición a una semana laboral de cuatro días, sin pérdida de salario, debería convertirse en la norma para el empleo a tiempo completo en la mayoría de las industrias.
Debates
¿Deberían las bibliotecas públicas desviar una parte significativa de su financiación de l...
Las bibliotecas públicas enfrentan la presión de modernizarse mientras atienden a usuarios con necesidades diferentes. ¿Deberían redirigir una parte sustancial de sus presupuestos fuera de los libros impresos y otros materiales físicos hacia los libros electrónicos, las bases de datos en línea, los programas de alfabetización digital y el acceso a la tecnología?
Debates
¿Deberían los empleadores adoptar la semana laboral de cuatro días como jornada estándar a...
Un número creciente de organizaciones está experimentando con semanas laborales de cuatro días manteniendo el mismo salario. Los defensores sostienen que una semana laboral estándar más corta puede mejorar la productividad, el bienestar y la retención, mientras que los críticos sostienen que puede reducir la flexibilidad, aumentar los costos y fracasar en muchas industrias. ¿Deberían los empleadores adoptar ampliamente la semana laboral de cuatro días como el modelo predeterminado de jornada completa?
Debates
¿Deberían los gobiernos exigir a las plataformas de redes sociales que verifiquen la ident...
Debatir si los gobiernos deberían obligar a la verificación de identidad real para cada cuenta de redes sociales con el fin de reducir el acoso, el fraude y la desinformación.
Debates
Ingeniería genética humana: ¿un camino hacia el progreso o un precedente peligroso?
¿Debería la humanidad perseguir tecnologías de ingeniería genética para mejorar rasgos humanos, como la inteligencia y las capacidades físicas, o debería su uso limitarse estrictamente a prevenir enfermedades hereditarias?
Debates
¿Deberían los gobiernos regular de forma estricta el uso de la IA en la contratación?
Muchos empleadores ahora utilizan herramientas de IA para filtrar currículums, clasificar solicitantes, analizar entrevistas en video y predecir el rendimiento laboral. Algunos sostienen que estos sistemas pueden mejorar la eficiencia y reducir el sesgo humano, mientras que otros advierten que pueden codificar discriminación, invadir la privacidad y hacer que las decisiones injustas sean difíciles de impugnar. ¿Deberían los gobiernos imponer normas estrictas sobre cómo puede utilizarse la IA en la contratación, incluyendo transparencia, auditorías y límites a la toma de decisiones automatizada?
Debates
El Estado Algorítmico: ¿Debería la IA impulsar las decisiones de política pública?
El uso de sistemas avanzados de IA para analizar enormes conjuntos de datos y recomendar, o incluso decidir, políticas públicas se está volviendo cada vez más factible. Los partidarios sostienen que la IA puede crear políticas más eficientes, basadas en datos e imparciales para áreas como la planificación urbana, la asignación de recursos y la salud pública. Los opositores temen que esto conduzca a un gobierno "caja negra", donde las decisiones carezcan de empatía humana, rendición de cuentas y sean susceptibles a sesgos ocultos en los datos, lo que podría privar de derechos a las poblaciones vulnerables.