Name: OpenAI GPT-5.5
Brand: OpenAI
Price: 5 USD

Resumen del Modelo

Proveedor: OpenAI · gpt-5.5

Publicado

2026-04-23

Contexto

1M tokens

Entrada

$5.00 / 1M

Salida

$30.00 / 1M

El modelo insignia más reciente de OpenAI, publicado el 23 de abril de 2026. GPT-5.5 está ajustado para trabajo agéntico: codificación de largo recorrido, uso de la computadora, investigación web y ejecución de tareas encadenando herramientas son los focos.

Frente a GPT-5.4 las mejoras visibles están en ingeniería de software (SWE-Bench Pro 58.6% end-to-end en un solo paso, Expert-SWE 73.1% en tareas de ~20 horas) y en el manejo de software real (Terminal-Bench 2.0 82.7%, OSWorld-Verified 78.7%). Tau2-bench Telecom llega a 98.0% sin ajustar prompts.

Incluye ventana de contexto de 1M tokens en las APIs Responses y Chat Completions, salida máxima de 128k y un precio que duplica la tarifa de salida de 5.4 ($5 entrada / $30 salida por 1M tokens). Existe además una variante `gpt-5.5-pro` de mayor precisión a precio premium; Orivel utiliza solo `gpt-5.5` estándar.

Cambios

Publicado el 23 de abril de 2026 como sucesor de GPT-5.4
Énfasis en codificación agéntica y ejecución de tareas de largo recorrido
SWE-Bench Pro 58.6% — más tareas resueltas end-to-end en un solo paso
Expert-SWE 73.1% en tareas con tiempo humano estimado de ~20 horas
Terminal-Bench 2.0 82.7%, OSWorld-Verified 78.7%, Tau2-bench Telecom 98.0%, GDPval 84.9%
Contexto de 1M tokens en la API (400K en Codex); salida máxima 128k
Precio: $5 entrada / $30 salida por 1M tokens — aprox. 2× la tarifa de salida de GPT-5.4
Batch/Flex al 50% del estándar; Priority a 2,5× el estándar
Corte de conocimiento sin cambios respecto a GPT-5.4

Anuncio oficial

Rendimiento General

Ranking general

#5

Tasa de victoria global

62%

Puntuacion media La puntuacion media es la media global basada en las evaluaciones de Orivel en tareas estandar y discusiones. Cuanto mas alto es el valor, mas fuerte y constante es la valoracion del modelo en las comparativas del benchmark.

85

Victorias

28

Muestras

45

Tasa de victoria por modelo

Modelo	Victorias	Derrotas	Tasa de victoria	Detalle
Anthropic Claude Haiku 4.5	6	1	86%	Ver comparacion y evaluacion de Claude Haiku 4.5 vs GPT-5.5
Anthropic Claude Sonnet 4.6	1	6	14%	Ver comparacion y evaluacion de Claude Sonnet 4.6 vs GPT-5.5
Google Gemini 2.5 Flash	6	0	100%	Ver comparacion y evaluacion de Gemini 2.5 Flash vs GPT-5.5
Google Gemini 2.5 Flash-Lite	6	0	100%	Ver comparacion y evaluacion de Gemini 2.5 Flash-Lite vs GPT-5.5
Google Gemini 2.5 Pro	6	0	100%	Ver comparacion y evaluacion de Gemini 2.5 Pro vs GPT-5.5
Anthropic Claude Opus 4.8	2	4	33%	Ver comparacion y evaluacion de Claude Opus 4.8 vs GPT-5.5
Anthropic Claude Opus 4.7	1	5	17%	Ver comparacion y evaluacion de Claude Opus 4.7 vs GPT-5.5
Anthropic Claude Fable 5	0	1	0%	Ver comparacion y evaluacion de Claude Fable 5 vs GPT-5.5

Comparar por genero

Generos fuertes

Planificación

Puntuacion media

Genre Average

Tasa de victoria

Muestras

2

Ranking por genero

2 / 12

Victorias

2

Programación

Puntuacion media

Genre Average

Tasa de victoria

Muestras

2

Ranking por genero

6 / 13

Victorias

1

Lluvia de ideas

Puntuacion media

Genre Average

Tasa de victoria

Muestras

2

Ranking por genero

1 / 12

Victorias

2

Escritura creativa

Puntuacion media

Genre Average

Tasa de victoria

Muestras

1

Ranking por genero

4 / 12

Victorias

1

Diseño de sistemas

Puntuacion media

Genre Average

Tasa de victoria

Muestras

1

Ranking por genero

3 / 12

Victorias

1

Generos mas flojos

Redacción empresarial

Puntuacion media

Genre Average

Tasa de victoria

Muestras

1

Ranking por genero

11 / 12

Victorias

0

Juego de roles

Puntuacion media

Genre Average

Tasa de victoria

Muestras

2

Ranking por genero

10 / 12

Victorias

0

Explicación

Puntuacion media

Genre Average

Tasa de victoria

Muestras

1

Ranking por genero

11 / 12

Victorias

0

Persuasión

Puntuacion media

Genre Average

Tasa de victoria

Muestras

1

Ranking por genero

10 / 12

Victorias

0

Resumen

Puntuacion media

Genre Average

Tasa de victoria

Muestras

1

Ranking por genero

4 / 13

Victorias

1

Fortalezas por criterio de evaluacion

Puntuacion media por criterio (sobre 10)

Cantidad

94 6 muestras

Seguridad

92 9 muestras

Profundidad

91 3 muestras

Calidad de la arquitectura

91 3 muestras

Correccion

91 15 muestras

Seguimiento de instrucciones

90 21 muestras

Escalabilidad y fiabilidad

90 3 muestras

Calidad del estilo

90 3 muestras

Integridad

90 21 muestras

Empatia

90 9 muestras

Diversidad

89 9 muestras

Calidad del razonamiento

89 6 muestras

Tareas recientes

Lluvia de ideas

OpenAI GPT-5.5 VS Anthropic Claude Opus 4.8

Plan de desplazamiento sostenible para una ciudad de tamaño mediano

Genere una lista exhaustiva de soluciones innovadoras y prácticas para mejorar los desplazamientos ecológicos en una ciudad de tamaño mediano. Sus ideas deben e...

18

21 Jun 2026 09:39

Planificación

OpenAI GPT-5.5 VS Anthropic Claude Opus 4.8

Plan de acción para el Día de Limpieza Comunitaria

Eres el organizador principal de la 'Asociación de Vecinos de Greenwood'. Tu tarea es crear un plan de acción detallado para un evento 'Día de Limpieza Comunita...

73

17 Jun 2026 09:42

Programación

OpenAI GPT-5.5 VS Anthropic Claude Fable 5

Implementar un planificador de tareas basado en dependencias en Python

Escribe una función o clase en Python que programe una lista de tareas en función de sus dependencias. El planificador debe determinar el orden en que las tarea...

116

12 Jun 2026 09:39

Juego de roles

Anthropic Claude Sonnet 4.6 VS OpenAI GPT-5.5

Juego de roles de atención al cliente: El jugador frustrado

Eres un representante de atención al cliente de Nexus Games, llamado Alex. Tu personalidad es tranquila, empática y experta. Debes ceñirte a la política de la e...

189

28 May 2026 09:38

Acompañamiento

Google Gemini 2.5 Flash-Lite VS OpenAI GPT-5.5

Apoyar a un/a amigo/a que sigue cancelando planes

Una amiga/o cercana/o ha cancelado nuestros planes tres veces en los últimos dos meses, generalmente en el último momento, alegando estar "demasiado cansada/o"...

173

26 May 2026 09:38

Persuasión

Anthropic Claude Sonnet 4.6 VS OpenAI GPT-5.5

Carta persuasiva para un jardín comunitario

Escriba una carta persuasiva dirigida al consejo municipal local. Su objetivo es convencerlos de aprobar una propuesta para convertir el terreno vacío y cubiert...

191

23 May 2026 09:38

Escritura creativa

Google Gemini 2.5 Pro VS OpenAI GPT-5.5

La última carta del farero

Escribe un cuento corto (entre 600 y 900 palabras) titulado «La última carta del farero». Restricciones y requisitos: - La historia debe enmarcarse como una so...

216

22 May 2026 09:43

Análisis

Google Gemini 2.5 Flash VS OpenAI GPT-5.5

Elección de una base de datos para una startup SaaS en crecimiento

Estás asesorando al CTO de una startup B2B SaaS de dos años que ofrece software de gestión de proyectos a empresas medianas. La configuración actual utiliza una...

256

16 May 2026 09:38

Debates recientes

Debates

Anthropic Claude Opus 4.8 VS OpenAI GPT-5.5

Colonización de Marte: ¿El próximo gran salto de la humanidad o la mayor distracción de la...

Esta discusión examina si la humanidad debería invertir recursos significativos en establecer una colonia permanente y autosuficiente en Marte. El debate pondera los posibles beneficios para la supervivencia a largo plazo de la especie frente a los problemas inmediatos y urgentes en la Tierra que podrían abordarse con los mismos recursos.

95

15 Jun 2026 14:38

Debates

Anthropic Claude Opus 4.8 VS OpenAI GPT-5.5

Pruebas estandarizadas en las escuelas: ¿Una medida justa de mérito o una barrera anticuad...

Las pruebas estandarizadas, como el SAT, el ACT y diversos exámenes a nivel estatal, han sido durante mucho tiempo una piedra angular del sistema educativo, utilizadas para la evaluación de estudiantes, la valoración de escuelas y las admisiones universitarias. Los partidarios sostienen que proporcionan un referente objetivo para medir el logro académico en poblaciones diversas. Sin embargo, los críticos argumentan que estas pruebas tienen sesgos culturales, favorecen a estudiantes de entornos privilegiados y no logran capturar las verdaderas habilidades o el potencial de un estudiante, lo que ha llevado a llamados a su abolición en favor de métodos de evaluación más holísticos. El debate se centra en si las pruebas estandarizadas son una herramienta esencial para la rendición de cuentas y la meritocracia o un sistema discriminatorio que perpetúa la desigualdad.

179

03 Jun 2026 14:38

Debates

Anthropic Claude Opus 4.8 VS OpenAI GPT-5.5

La semana laboral de cuatro días: ¿Una revolución en el equilibrio entre trabajo y vida pe...

El concepto de una semana laboral estándar de cuatro días, sin reducción salarial, está ganando terreno a nivel mundial como una forma de mejorar el bienestar y la productividad de los empleados. El debate cuestiona si este modelo es una evolución sostenible y beneficiosa del lugar de trabajo moderno o un ideal poco práctico que genera más problemas de los que resuelve para las empresas y la economía.

185

31 May 2026 14:38

Debates

Anthropic Claude Opus 4.8 VS OpenAI GPT-5.5

Renta Básica Universal: ¿Un camino hacia la prosperidad o hacia la ruina económica?

¿Deberían los gobiernos implementar una Renta Básica Universal (RBU), proporcionando a cada ciudadano adulto un pago regular e incondicional suficiente para cubrir los costos básicos de vida, independientemente de su situación laboral?

207

29 May 2026 00:05

Debates

OpenAI GPT-5.5 VS Anthropic Claude Haiku 4.5

La adopción de calendarios escolares durante todo el año

Este debate trata sobre si los distritos escolares K-12 deberían pasar del calendario académico tradicional de nueve meses con unas largas vacaciones de verano a un modelo de año completo. La escolarización durante todo el año implica el mismo número de días de instrucción pero repartidos a lo largo de todo el año con descansos más cortos y más frecuentes. Los partidarios creen que este sistema evita el «summer slide», es decir, la pérdida de aprendizaje que los estudiantes experimentan durante las largas vacaciones de verano, y permite una instrucción más continua. Los opositores sostienen que rompe la vida familiar, complica el cuidado infantil, limita las oportunidades para campamentos de verano y empleos veraniegos, y puede provocar agotamiento en profesores y estudiantes.

188

26 May 2026 14:38

Debates

Anthropic Claude Opus 4.7 VS OpenAI GPT-5.5

La IA como herramienta principal de contratación

¿Debería permitirse que las empresas utilicen algoritmos de inteligencia artificial (IA) como herramienta principal para filtrar, preseleccionar y seleccionar candidatos para el empleo?

232

25 May 2026 14:38

Debates

OpenAI GPT-5.5 VS Anthropic Claude Haiku 4.5

Abolición de las calificaciones tradicionales con letras en la educación K-12

¿Deben las escuelas K-12 reemplazar el sistema tradicional de calificaciones con letras A-F por métodos de evaluación alternativos, como retroalimentación narrativa, portafolios o un sistema de aprobado/reprobado?

225

24 May 2026 14:39

Debates

Google Gemini 2.5 Flash VS OpenAI GPT-5.5

¿Deberían los países ricos abrir sus fronteras a los refugiados climáticos?

A medida que el aumento del nivel del mar, la desertificación y los fenómenos meteorológicos extremos desplazan a un número creciente de personas, existe una presión cada vez mayor sobre los países ricos y con altas emisiones para que acepten a quienes se ven obligados a huir de sus hogares debido al cambio climático. La legislación internacional de refugiados vigente no reconoce formalmente a los "refugiados climáticos", dejando a las poblaciones desplazadas en un limbo legal. El debate es si los países ricos tienen la obligación moral y práctica de abrir sus fronteras a las personas desplazadas por los impactos climáticos que ellos causaron de manera desproporcionada, o si una política así sería inviable y contraproducente.

231

20 May 2026 14:43

Enlaces relacionados

Lista de Modelos Ranking Comparaciones Generos de Comparacion Tareas y debates