Orivel Orivel
Abrir menu

GPT-5.5

Explora puntuaciones de benchmark, fortalezas por género, debilidades y ejemplos recientes de GPT-5.5.

Resumen del Modelo

Proveedor: OpenAI · gpt-5.5

Publicado

2026-04-23

Contexto

1M tokens

Entrada

$5.00 / 1M

Salida

$30.00 / 1M

El modelo insignia más reciente de OpenAI, publicado el 23 de abril de 2026. GPT-5.5 está ajustado para trabajo agéntico: codificación de largo recorrido, uso de la computadora, investigación web y ejecución de tareas encadenando herramientas son los focos.

Frente a GPT-5.4 las mejoras visibles están en ingeniería de software (SWE-Bench Pro 58.6% end-to-end en un solo paso, Expert-SWE 73.1% en tareas de ~20 horas) y en el manejo de software real (Terminal-Bench 2.0 82.7%, OSWorld-Verified 78.7%). Tau2-bench Telecom llega a 98.0% sin ajustar prompts.

Incluye ventana de contexto de 1M tokens en las APIs Responses y Chat Completions, salida máxima de 128k y un precio que duplica la tarifa de salida de 5.4 ($5 entrada / $30 salida por 1M tokens). Existe además una variante `gpt-5.5-pro` de mayor precisión a precio premium; Orivel utiliza solo `gpt-5.5` estándar.

Cambios

  • Publicado el 23 de abril de 2026 como sucesor de GPT-5.4
  • Énfasis en codificación agéntica y ejecución de tareas de largo recorrido
  • SWE-Bench Pro 58.6% — más tareas resueltas end-to-end en un solo paso
  • Expert-SWE 73.1% en tareas con tiempo humano estimado de ~20 horas
  • Terminal-Bench 2.0 82.7%, OSWorld-Verified 78.7%, Tau2-bench Telecom 98.0%, GDPval 84.9%
  • Contexto de 1M tokens en la API (400K en Codex); salida máxima 128k
  • Precio: $5 entrada / $30 salida por 1M tokens — aprox. 2× la tarifa de salida de GPT-5.4
  • Batch/Flex al 50% del estándar; Priority a 2,5× el estándar
  • Corte de conocimiento sin cambios respecto a GPT-5.4
Anuncio oficial

Rendimiento General

Ranking general

#5

Tasa de victoria global

62%

Puntuacion media

85

Victorias

28

Muestras

45

Tasa de victoria por modelo

Comparar por genero

Generos fuertes

Generos mas flojos

Fortalezas por criterio de evaluacion

Puntuacion media por criterio (sobre 10)

Cantidad

94 6 muestras

Seguridad

92 9 muestras

Profundidad

91 3 muestras

Calidad de la arquitectura

91 3 muestras

Correccion

91 15 muestras

Seguimiento de instrucciones

90 21 muestras

Escalabilidad y fiabilidad

90 3 muestras

Calidad del estilo

90 3 muestras

Integridad

90 21 muestras

Empatia

90 9 muestras

Diversidad

89 9 muestras

Calidad del razonamiento

89 6 muestras

Tareas recientes

Lluvia de ideas

OpenAI GPT-5.5 VS Anthropic Claude Opus 4.8

Plan de desplazamiento sostenible para una ciudad de tamaño mediano

Genere una lista exhaustiva de soluciones innovadoras y prácticas para mejorar los desplazamientos ecológicos en una ciudad de tamaño mediano. Sus ideas deben e...

18
21 Jun 2026 09:39

Planificación

OpenAI GPT-5.5 VS Anthropic Claude Opus 4.8

Plan de acción para el Día de Limpieza Comunitaria

Eres el organizador principal de la 'Asociación de Vecinos de Greenwood'. Tu tarea es crear un plan de acción detallado para un evento 'Día de Limpieza Comunita...

73
17 Jun 2026 09:42

Programación

OpenAI GPT-5.5 VS Anthropic Claude Fable 5

Implementar un planificador de tareas basado en dependencias en Python

Escribe una función o clase en Python que programe una lista de tareas en función de sus dependencias. El planificador debe determinar el orden en que las tarea...

116
12 Jun 2026 09:39

Juego de roles

Anthropic Claude Sonnet 4.6 VS OpenAI GPT-5.5

Juego de roles de atención al cliente: El jugador frustrado

Eres un representante de atención al cliente de Nexus Games, llamado Alex. Tu personalidad es tranquila, empática y experta. Debes ceñirte a la política de la e...

189
28 May 2026 09:38

Acompañamiento

Google Gemini 2.5 Flash-Lite VS OpenAI GPT-5.5

Apoyar a un/a amigo/a que sigue cancelando planes

Una amiga/o cercana/o ha cancelado nuestros planes tres veces en los últimos dos meses, generalmente en el último momento, alegando estar "demasiado cansada/o"...

173
26 May 2026 09:38

Persuasión

Anthropic Claude Sonnet 4.6 VS OpenAI GPT-5.5

Carta persuasiva para un jardín comunitario

Escriba una carta persuasiva dirigida al consejo municipal local. Su objetivo es convencerlos de aprobar una propuesta para convertir el terreno vacío y cubiert...

191
23 May 2026 09:38

Escritura creativa

Google Gemini 2.5 Pro VS OpenAI GPT-5.5

La última carta del farero

Escribe un cuento corto (entre 600 y 900 palabras) titulado «La última carta del farero». Restricciones y requisitos: - La historia debe enmarcarse como una so...

216
22 May 2026 09:43

Análisis

Google Gemini 2.5 Flash VS OpenAI GPT-5.5

Elección de una base de datos para una startup SaaS en crecimiento

Estás asesorando al CTO de una startup B2B SaaS de dos años que ofrece software de gestión de proyectos a empresas medianas. La configuración actual utiliza una...

256
16 May 2026 09:38

Debates recientes

Debates

Anthropic Claude Opus 4.8 VS OpenAI GPT-5.5

Colonización de Marte: ¿El próximo gran salto de la humanidad o la mayor distracción de la...

Esta discusión examina si la humanidad debería invertir recursos significativos en establecer una colonia permanente y autosuficiente en Marte. El debate pondera los posibles beneficios para la supervivencia a largo plazo de la especie frente a los problemas inmediatos y urgentes en la Tierra que podrían abordarse con los mismos recursos.

95
15 Jun 2026 14:38

Debates

Anthropic Claude Opus 4.8 VS OpenAI GPT-5.5

Pruebas estandarizadas en las escuelas: ¿Una medida justa de mérito o una barrera anticuad...

Las pruebas estandarizadas, como el SAT, el ACT y diversos exámenes a nivel estatal, han sido durante mucho tiempo una piedra angular del sistema educativo, utilizadas para la evaluación de estudiantes, la valoración de escuelas y las admisiones universitarias. Los partidarios sostienen que proporcionan un referente objetivo para medir el logro académico en poblaciones diversas. Sin embargo, los críticos argumentan que estas pruebas tienen sesgos culturales, favorecen a estudiantes de entornos privilegiados y no logran capturar las verdaderas habilidades o el potencial de un estudiante, lo que ha llevado a llamados a su abolición en favor de métodos de evaluación más holísticos. El debate se centra en si las pruebas estandarizadas son una herramienta esencial para la rendición de cuentas y la meritocracia o un sistema discriminatorio que perpetúa la desigualdad.

179
03 Jun 2026 14:38

Debates

Anthropic Claude Opus 4.8 VS OpenAI GPT-5.5

La semana laboral de cuatro días: ¿Una revolución en el equilibrio entre trabajo y vida pe...

El concepto de una semana laboral estándar de cuatro días, sin reducción salarial, está ganando terreno a nivel mundial como una forma de mejorar el bienestar y la productividad de los empleados. El debate cuestiona si este modelo es una evolución sostenible y beneficiosa del lugar de trabajo moderno o un ideal poco práctico que genera más problemas de los que resuelve para las empresas y la economía.

185
31 May 2026 14:38

Debates

Anthropic Claude Opus 4.8 VS OpenAI GPT-5.5

Renta Básica Universal: ¿Un camino hacia la prosperidad o hacia la ruina económica?

¿Deberían los gobiernos implementar una Renta Básica Universal (RBU), proporcionando a cada ciudadano adulto un pago regular e incondicional suficiente para cubrir los costos básicos de vida, independientemente de su situación laboral?

207
29 May 2026 00:05

Debates

OpenAI GPT-5.5 VS Anthropic Claude Haiku 4.5

La adopción de calendarios escolares durante todo el año

Este debate trata sobre si los distritos escolares K-12 deberían pasar del calendario académico tradicional de nueve meses con unas largas vacaciones de verano a un modelo de año completo. La escolarización durante todo el año implica el mismo número de días de instrucción pero repartidos a lo largo de todo el año con descansos más cortos y más frecuentes. Los partidarios creen que este sistema evita el «summer slide», es decir, la pérdida de aprendizaje que los estudiantes experimentan durante las largas vacaciones de verano, y permite una instrucción más continua. Los opositores sostienen que rompe la vida familiar, complica el cuidado infantil, limita las oportunidades para campamentos de verano y empleos veraniegos, y puede provocar agotamiento en profesores y estudiantes.

188
26 May 2026 14:38

Debates

Anthropic Claude Opus 4.7 VS OpenAI GPT-5.5

La IA como herramienta principal de contratación

¿Debería permitirse que las empresas utilicen algoritmos de inteligencia artificial (IA) como herramienta principal para filtrar, preseleccionar y seleccionar candidatos para el empleo?

232
25 May 2026 14:38

Debates

OpenAI GPT-5.5 VS Anthropic Claude Haiku 4.5

Abolición de las calificaciones tradicionales con letras en la educación K-12

¿Deben las escuelas K-12 reemplazar el sistema tradicional de calificaciones con letras A-F por métodos de evaluación alternativos, como retroalimentación narrativa, portafolios o un sistema de aprobado/reprobado?

225
24 May 2026 14:39

Debates

Google Gemini 2.5 Flash VS OpenAI GPT-5.5

¿Deberían los países ricos abrir sus fronteras a los refugiados climáticos?

A medida que el aumento del nivel del mar, la desertificación y los fenómenos meteorológicos extremos desplazan a un número creciente de personas, existe una presión cada vez mayor sobre los países ricos y con altas emisiones para que acepten a quienes se ven obligados a huir de sus hogares debido al cambio climático. La legislación internacional de refugiados vigente no reconoce formalmente a los "refugiados climáticos", dejando a las poblaciones desplazadas en un limbo legal. El debate es si los países ricos tienen la obligación moral y práctica de abrir sus fronteras a las personas desplazadas por los impactos climáticos que ellos causaron de manera desproporcionada, o si una política así sería inviable y contraproducente.

231
20 May 2026 14:43

Enlaces relacionados

X f L