Humor
ExperimentalCompara originalidad y eficacia humorística en un género aún experimental.
En este genero, las capacidades que mas se intentan medir son Eficacia humoristica, Originalidad, Coherencia.
A diferencia de creative writing, aqui importa de forma mas directa si el contenido realmente funciona como humor para la audiencia esperada.
Una puntuacion alta aqui no garantiza seguridad en contextos sensibles, precision factual ni tono profesional.
Para que sirve un modelo fuerte en este genero
bromas, copy ligero, entretenimiento suave y prompts donde importa el efecto comico.
Lo que este genero por si solo no alcanza a mostrar
si el modelo sirve mejor para guia seria, apoyo cuidadoso o comunicacion profesional exacta.
Humor: GPT-5 lidera un género subjetivo y la línea Gemini se queda plana
Anthropic
OpenAI
OpenAI
Puntuacion media por modelo
Como ponderamos
Sobre 31 respuestas puntuadas, la cima la lideran GPT-5 y Opus. Claude Opus 4.8 (8,61) ocupa el puesto 1 sobre una sola muestra, así que el líder mejor evidenciado es GPT-5 mini en el puesto 2: 8,16 sobre 4 muestras, con 4 primeros puestos y un 100 % de victorias. GPT-5.4 (8,44, 75 % sobre 4) queda 3.º con una media superior, de nuevo superado en la tasa de victorias.
Anthropic está dividido: Claude Haiku 4.5 (7,64, 67 %) queda 4.º pese a una media inferior a la de Claude Sonnet 4.6 (8,24, 50 %) en el puesto 5, un recordatorio de que esta rúbrica premia ganar el chiste cara a cara por encima de una media pulida. GPT-5.5 (8,15) cae al puesto 6 sobre una sola muestra sin victorias.
La línea Gemini es el punto débil claro: 2.5 Pro (6,95), Flash (6,84) y Flash-Lite (6,42) registran todos un 0 % de victorias y son los únicos modelos por debajo de 7. Con Eficacia del humor ponderada al máximo (35) y Originalidad (25), la brecha sugiere chistes que aciertan con menos frecuencia, la cualidad más difícil y subjetiva de medir.
El humor es intrínsecamente subjetivo y las muestras van de 1 a 5 por modelo, así que toma el orden fino como provisional; unos pocos prompts y el gusto de un solo juez pueden mover cualquier media. La diferencia de 2,19 puntos es real, pero son medidas dependientes de las condiciones, no un veredicto universal sobre el ingenio.
En resumen
Para humor, GPT-5 mini es la elección más defendible (4 muestras, 4 primeros puestos, 100 % de victorias), con GPT-5.4 cerca en calidad. La línea Gemini queda de forma sistemática por debajo del resto en este género subjetivo.
Este analisis se basa en las puntuaciones de benchmark medidas por Orivel para este genero y se actualiza periodicamente. Las puntuaciones son medidas que dependen de las condiciones, no una verdad absoluta.
Ranking de modelos fuertes en este genero
Este ranking se ordena por la puntuacion media solo dentro de este genero.
Ultima actualizacion: 31 May 2026 09:35
Tasa de victoria
Puntuacion media
Tasa de victoria
Puntuacion media
Tasa de victoria
Puntuacion media
Tasa de victoria
Puntuacion media
Tasa de victoria
Puntuacion media
Tasa de victoria
Puntuacion media
Tasa de victoria
Puntuacion media
Tasa de victoria
Puntuacion media
Tasa de victoria
Puntuacion media
| Modelos clasificados |
|
|
Detalle | ||||
|---|---|---|---|---|---|---|---|
| #1 | Claude Opus 4.8 NUEVO | Anthropic |
100%
|
86
|
1 | 1 | Ver la evaluacion y la puntuacion de Claude Opus 4.8 |
| #2 | GPT-5 mini | OpenAI |
100%
|
82
|
4 | 4 | Ver la evaluacion y la puntuacion de GPT-5 mini |
| #3 | GPT-5.4 | OpenAI |
75%
|
84
|
3 | 4 | Ver la evaluacion y la puntuacion de GPT-5.4 |
| #4 | Claude Haiku 4.5 | Anthropic |
67%
|
76
|
2 | 3 | Ver la evaluacion y la puntuacion de Claude Haiku 4.5 |
| #5 | Claude Sonnet 4.6 | Anthropic |
50%
|
82
|
2 | 4 | Ver la evaluacion y la puntuacion de Claude Sonnet 4.6 |
| #6 | GPT-5.5 | OpenAI |
0%
|
82
|
0 | 1 | Ver la evaluacion y la puntuacion de GPT-5.5 |
| #7 | Gemini 2.5 Pro |
0%
|
69
|
0 | 4 | Ver la evaluacion y la puntuacion de Gemini 2.5 Pro | |
| #8 | Gemini 2.5 Flash |
0%
|
68
|
0 | 5 | Ver la evaluacion y la puntuacion de Gemini 2.5 Flash | |
| #9 | Gemini 2.5 Flash-Lite |
0%
|
64
|
0 | 5 | Ver la evaluacion y la puntuacion de Gemini 2.5 Flash-Lite |
Que se evalua en Humor
Criterios y pesos usados para este ranking por genero.
Eficacia humoristica
35.0%
Este criterio se incluye para comprobar Eficacia humoristica en la respuesta. Tiene mas peso porque este aspecto cambia mucho el resultado global del genero.
Originalidad
25.0%
Este criterio se incluye para comprobar Originalidad en la respuesta. Tiene un peso importante porque afecta la calidad de forma visible, aunque no sea lo unico que importa.
Coherencia
15.0%
Este criterio se incluye para comprobar Coherencia en la respuesta. Tiene menos peso porque acompana el objetivo principal, pero no define por si solo este genero.
Claridad
15.0%
Este criterio se incluye para comprobar Claridad en la respuesta. Tiene menos peso porque acompana el objetivo principal, pero no define por si solo este genero.
Seguimiento de instrucciones
10.0%
Este criterio se incluye para comprobar Seguimiento de instrucciones en la respuesta. Tiene menos peso porque acompana el objetivo principal, pero no define por si solo este genero.
Tareas recientes
Humor
Humor apto para familias: La audioguía del museo excesivamente honesta
Escribe un breve diálogo cómico entre un visitante de museo y una audioguía inusualmente honesta en una exhibición ficticia llamada Objetos cotidianos que cambiaron la historia. El visitante intenta tener una experiencia cultural seria, mientras la audioguía sigue revelando datos detrás de escena incómodos, divertidos pero plausibles sobre los objetos. Incluye exactamente 10 líneas de diálogo, alternando entre Visitante y Audioguía, empezando con Visitante. Mantén el humor apto para familias, ingenioso y adecuado para un público general. No uses insultos, lenguaje soez, humor sexual, estereotipos ni referencias a personas reales vivas. La última línea debe ser un remate que conecte con la primera línea.
Humor
Humor amable para una guía de campo de la biblioteca
Escribe 10 entradas humorísticas de guía de campo para objetos cotidianos que se encuentran en una biblioteca pública, como una engrapadora, un carrito de libros, una impresora, una tarjeta de la biblioteca, un lápiz o un buzón de devolución. Cada entrada debe incluir un nombre científico inventado, un comportamiento observable y una broma ligera. El humor debe ser cálido, ingenioso y apto tanto para adultos como para niños a partir de 10 años. Evita bromas malintencionadas, estereotipos, humor escatológico o repulsivo, referencias sexuales, groserías y referencias actuales de la cultura popular. Limita cada entrada a 1 o 2 frases, y procura que las 10 entradas se sientan distintas entre sí en lugar de ser variaciones de la misma broma.
Humor
Rutina de stand-up para una conferencia tecnológica
Escribe una rutina de comedia stand-up de 2 minutos para un comediante que actúa en una importante conferencia tecnológica. El público está compuesto principalmente por ingenieros de software y gerentes de proyectos. La rutina debe centrarse en los aspectos divertidos o absurdos del trabajo remoto y de las metodologías de desarrollo 'ágil'. El tono debe ser sarcástico y observacional, pero en última instancia de buen talante y apropiado para un entorno corporativo.
Humor
Escribe un monólogo de stand-up sobre las absurdidades de hacer la compra
Escribe un breve monólogo de stand-up (aproximadamente 400–600 palabras) interpretado por un comediante ficticio en una noche de micrófono abierto. Todo el número debe girar en torno a las absurdidades cotidianas de hacer la compra — desde moverse por los pasillos, hasta las máquinas de autopago, y las reglas sociales no habladas entre compradores. Requisitos: 1. El monólogo debe estar escrito en primera persona como si se dijera en el escenario, incluyendo pausas naturales, indicaciones de interacción con el público o referencias a chistes anteriores (callbacks) que un comediante real podría usar. 2. El humor debe ser observacional y con el que la gente se pueda identificar — nada de humor sorpresa extremo, lenguaje soez, ni chistes malintencionados dirigidos a grupos específicos de personas. 3. Incluye al menos tres gags cómicos distintos (mini-temas) dentro del tema de hacer la compra, con transiciones fluidas entre ellos. 4. Termina el número con un cierre contundente o una referencia a un chiste anterior (callback) que vuelva a algo mencionado anteriormente en el monólogo. 5. El tono debe ser apropiado para un público adulto general (piensa en una noche de comedia limpia).
Humor
Sátira de Jerga Corporativa: Un memorándum de oficina
Escribe un memorándum interno satírico de la empresa (aproximadamente 300–500 palabras) de un gerente intermedio ficticio llamado "Derek de Synergy Solutions" anunciando una nueva política corporativa absurdamente innecesaria. El memorándum debe: 1. Estar escrito con jerga corporativa y palabras de moda exageradas (por ejemplo, "sinergizar", "volver a hacer seguimiento", "apalancar", "mover la aguja"). 2. Anunciar una política que suene importante pero que sea completamente inútil o contraproducente cuando se la analiza. 3. Mantener un tono serio y monocorde en todo momento: el humor debe surgir del contraste entre la entrega formal y el contenido ridículo. 4. Incluir al menos un acrónimo inventado o un nombre de iniciativa que suene plausible. 5. Terminar con un bloque de firma que aporte un toque cómico final. El memorándum debe ser divertido para cualquiera que haya trabajado en un entorno de oficina corporativa, pero debe permanecer apropiado para el lugar de trabajo (sin blasfemias, sin ataques a grupos protegidos, sin contenido malintencionado sobre compañías o personas reales).
Humor
Monólogo de stand-up limpio para la inauguración de un museo de ciencias con un presentador nervioso
Escribe un monólogo de stand-up original y apto para público familiar de 220 a 320 palabras para un presentador que inaugura una nueva exhibición de un museo de ciencias sobre objetos domésticos cotidianos. El público es mixto: niños de 10 años en adelante, padres, docentes y donantes locales. El orador está un poco nervioso pero intenta sonar confiado y encantador. Restricciones obligatorias: - Manténlo adecuado para un público familiar general. - Usa exactamente 6 chistes o golpes cómicos. - Al menos 3 chistes deben tratar sobre objetos ordinarios siendo tratados como si tuvieran vidas secretas y dramáticas. - Incluye 1 breve llamada (callback) a un chiste anterior cerca del final. - Menciona de forma natural los 5 siguientes objetos: tostadora, paraguas, calcetín, aspiradora y refrigerador. - Evita insultos, política, religión, chistes sobre citas, humor escatológico y referencias a celebridades. - El monólogo debe sentirse como una actuación continua, no como una lista de chistes sueltos e independientes. Apunta a un humor que funcione tanto para niños como para adultos, con un planteamiento y un remate claros.