Orivel Orivel
Abrir menu

Humor

Experimental

Compara originalidad y eficacia humorística en un género aún experimental.

En este genero, las capacidades que mas se intentan medir son Eficacia humoristica, Originalidad, Coherencia.

A diferencia de creative writing, aqui importa de forma mas directa si el contenido realmente funciona como humor para la audiencia esperada.

Una puntuacion alta aqui no garantiza seguridad en contextos sensibles, precision factual ni tono profesional.

Para que sirve un modelo fuerte en este genero

bromas, copy ligero, entretenimiento suave y prompts donde importa el efecto comico.

Lo que este genero por si solo no alcanza a mostrar

si el modelo sirve mejor para guia seria, apoyo cuidadoso o comunicacion profesional exacta.

Analisis de datos

Humor: GPT-5 lidera un género subjetivo y la línea Gemini se queda plana

31 respuestas evaluadas Humor Actualizado 2026/6/7
1
Claude Opus 4.8

Anthropic

86
Puntuacion media
100%
Tasa de victoria
1 veces 1.o 1 muestras
2
GPT-5 mini

OpenAI

82
Puntuacion media
100%
Tasa de victoria
4 veces 1.o 4 muestras
3
GPT-5.4

OpenAI

84
Puntuacion media
75%
Tasa de victoria
3 veces 1.o 4 muestras

Puntuacion media por modelo

1 Claude Opus 4.8
8.61
2 GPT-5 mini
8.16
3 GPT-5.4
8.44
4 Claude Haiku 4.5
7.64
5 Claude Sonnet 4.6
8.24
6 GPT-5.5
8.15
7 Gemini 2.5 Pro
6.95
8 Gemini 2.5 Flash
6.84
9 Gemini 2.5 Flash-Lite
6.42

Como ponderamos

Eficacia humoristica 35% Originalidad 25% Coherencia 15% Claridad 15% Seguimiento de instrucciones 10%

Sobre 31 respuestas puntuadas, la cima la lideran GPT-5 y Opus. Claude Opus 4.8 (8,61) ocupa el puesto 1 sobre una sola muestra, así que el líder mejor evidenciado es GPT-5 mini en el puesto 2: 8,16 sobre 4 muestras, con 4 primeros puestos y un 100 % de victorias. GPT-5.4 (8,44, 75 % sobre 4) queda 3.º con una media superior, de nuevo superado en la tasa de victorias.

Anthropic está dividido: Claude Haiku 4.5 (7,64, 67 %) queda 4.º pese a una media inferior a la de Claude Sonnet 4.6 (8,24, 50 %) en el puesto 5, un recordatorio de que esta rúbrica premia ganar el chiste cara a cara por encima de una media pulida. GPT-5.5 (8,15) cae al puesto 6 sobre una sola muestra sin victorias.

La línea Gemini es el punto débil claro: 2.5 Pro (6,95), Flash (6,84) y Flash-Lite (6,42) registran todos un 0 % de victorias y son los únicos modelos por debajo de 7. Con Eficacia del humor ponderada al máximo (35) y Originalidad (25), la brecha sugiere chistes que aciertan con menos frecuencia, la cualidad más difícil y subjetiva de medir.

El humor es intrínsecamente subjetivo y las muestras van de 1 a 5 por modelo, así que toma el orden fino como provisional; unos pocos prompts y el gusto de un solo juez pueden mover cualquier media. La diferencia de 2,19 puntos es real, pero son medidas dependientes de las condiciones, no un veredicto universal sobre el ingenio.

En resumen

Para humor, GPT-5 mini es la elección más defendible (4 muestras, 4 primeros puestos, 100 % de victorias), con GPT-5.4 cerca en calidad. La línea Gemini queda de forma sistemática por debajo del resto en este género subjetivo.

Este analisis se basa en las puntuaciones de benchmark medidas por Orivel para este genero y se actualiza periodicamente. Las puntuaciones son medidas que dependen de las condiciones, no una verdad absoluta.

Ranking de modelos fuertes en este genero

Este ranking se ordena por la puntuacion media solo dentro de este genero.

Ultima actualizacion: 31 May 2026 09:35

#1
Claude Opus 4.8 Anthropic

Tasa de victoria

100%

Puntuacion media

86
#2
GPT-5 mini OpenAI

Tasa de victoria

100%

Puntuacion media

82
#3
GPT-5.4 OpenAI

Tasa de victoria

75%

Puntuacion media

84
#4
Claude Haiku 4.5 Anthropic

Tasa de victoria

67%

Puntuacion media

76
#5
Claude Sonnet 4.6 Anthropic

Tasa de victoria

50%

Puntuacion media

82
#6
GPT-5.5 OpenAI

Tasa de victoria

0%

Puntuacion media

82
#7
Gemini 2.5 Pro Google

Tasa de victoria

0%

Puntuacion media

69
#8
Gemini 2.5 Flash Google

Tasa de victoria

0%

Puntuacion media

68
#9
Gemini 2.5 Flash-Lite Google

Tasa de victoria

0%

Puntuacion media

64

Que se evalua en Humor

Criterios y pesos usados para este ranking por genero.

Eficacia humoristica

35.0%

Este criterio se incluye para comprobar Eficacia humoristica en la respuesta. Tiene mas peso porque este aspecto cambia mucho el resultado global del genero.

Originalidad

25.0%

Este criterio se incluye para comprobar Originalidad en la respuesta. Tiene un peso importante porque afecta la calidad de forma visible, aunque no sea lo unico que importa.

Coherencia

15.0%

Este criterio se incluye para comprobar Coherencia en la respuesta. Tiene menos peso porque acompana el objetivo principal, pero no define por si solo este genero.

Claridad

15.0%

Este criterio se incluye para comprobar Claridad en la respuesta. Tiene menos peso porque acompana el objetivo principal, pero no define por si solo este genero.

Seguimiento de instrucciones

10.0%

Este criterio se incluye para comprobar Seguimiento de instrucciones en la respuesta. Tiene menos peso porque acompana el objetivo principal, pero no define por si solo este genero.

Tareas recientes

Humor

Anthropic Claude Opus 4.8 VS Google Gemini 2.5 Flash-Lite

Humor apto para familias: La audioguía del museo excesivamente honesta

Escribe un breve diálogo cómico entre un visitante de museo y una audioguía inusualmente honesta en una exhibición ficticia llamada Objetos cotidianos que cambiaron la historia. El visitante intenta tener una experiencia cultural seria, mientras la audioguía sigue revelando datos detrás de escena incómodos, divertidos pero plausibles sobre los objetos. Incluye exactamente 10 líneas de diálogo, alternando entre Visitante y Audioguía, empezando con Visitante. Mantén el humor apto para familias, ingenioso y adecuado para un público general. No uses insultos, lenguaje soez, humor sexual, estereotipos ni referencias a personas reales vivas. La última línea debe ser un remate que conecte con la primera línea.

127
31 May 2026 09:35

Humor

Anthropic Claude Opus 4.7 VS Google Gemini 2.5 Pro

Humor amable para una guía de campo de la biblioteca

Escribe 10 entradas humorísticas de guía de campo para objetos cotidianos que se encuentran en una biblioteca pública, como una engrapadora, un carrito de libros, una impresora, una tarjeta de la biblioteca, un lápiz o un buzón de devolución. Cada entrada debe incluir un nombre científico inventado, un comportamiento observable y una broma ligera. El humor debe ser cálido, ingenioso y apto tanto para adultos como para niños a partir de 10 años. Evita bromas malintencionadas, estereotipos, humor escatológico o repulsivo, referencias sexuales, groserías y referencias actuales de la cultura popular. Limita cada entrada a 1 o 2 frases, y procura que las 10 entradas se sientan distintas entre sí en lugar de ser variaciones de la misma broma.

200
17 May 2026 09:37

Humor

OpenAI GPT-5.5 VS Anthropic Claude Sonnet 4.6

Rutina de stand-up para una conferencia tecnológica

Escribe una rutina de comedia stand-up de 2 minutos para un comediante que actúa en una importante conferencia tecnológica. El público está compuesto principalmente por ingenieros de software y gerentes de proyectos. La rutina debe centrarse en los aspectos divertidos o absurdos del trabajo remoto y de las metodologías de desarrollo 'ágil'. El tono debe ser sarcástico y observacional, pero en última instancia de buen talante y apropiado para un entorno corporativo.

189
10 May 2026 09:38

Humor

OpenAI GPT-5 mini VS Google Gemini 2.5 Flash

Escribe un monólogo de stand-up sobre las absurdidades de hacer la compra

Escribe un breve monólogo de stand-up (aproximadamente 400–600 palabras) interpretado por un comediante ficticio en una noche de micrófono abierto. Todo el número debe girar en torno a las absurdidades cotidianas de hacer la compra — desde moverse por los pasillos, hasta las máquinas de autopago, y las reglas sociales no habladas entre compradores. Requisitos: 1. El monólogo debe estar escrito en primera persona como si se dijera en el escenario, incluyendo pausas naturales, indicaciones de interacción con el público o referencias a chistes anteriores (callbacks) que un comediante real podría usar. 2. El humor debe ser observacional y con el que la gente se pueda identificar — nada de humor sorpresa extremo, lenguaje soez, ni chistes malintencionados dirigidos a grupos específicos de personas. 3. Incluye al menos tres gags cómicos distintos (mini-temas) dentro del tema de hacer la compra, con transiciones fluidas entre ellos. 4. Termina el número con un cierre contundente o una referencia a un chiste anterior (callback) que vuelva a algo mencionado anteriormente en el monólogo. 5. El tono debe ser apropiado para un público adulto general (piensa en una noche de comedia limpia).

299
31 Mar 2026 09:37

Humor

Google Gemini 2.5 Flash VS OpenAI GPT-5.2

Sátira de Jerga Corporativa: Un memorándum de oficina

Escribe un memorándum interno satírico de la empresa (aproximadamente 300–500 palabras) de un gerente intermedio ficticio llamado "Derek de Synergy Solutions" anunciando una nueva política corporativa absurdamente innecesaria. El memorándum debe: 1. Estar escrito con jerga corporativa y palabras de moda exageradas (por ejemplo, "sinergizar", "volver a hacer seguimiento", "apalancar", "mover la aguja"). 2. Anunciar una política que suene importante pero que sea completamente inútil o contraproducente cuando se la analiza. 3. Mantener un tono serio y monocorde en todo momento: el humor debe surgir del contraste entre la entrega formal y el contenido ridículo. 4. Incluir al menos un acrónimo inventado o un nombre de iniciativa que suene plausible. 5. Terminar con un bloque de firma que aporte un toque cómico final. El memorándum debe ser divertido para cualquiera que haya trabajado en un entorno de oficina corporativa, pero debe permanecer apropiado para el lugar de trabajo (sin blasfemias, sin ataques a grupos protegidos, sin contenido malintencionado sobre compañías o personas reales).

362
29 Mar 2026 11:47

Humor

Anthropic Claude Haiku 4.5 VS Google Gemini 2.5 Flash-Lite

Monólogo de stand-up limpio para la inauguración de un museo de ciencias con un presentador nervioso

Escribe un monólogo de stand-up original y apto para público familiar de 220 a 320 palabras para un presentador que inaugura una nueva exhibición de un museo de ciencias sobre objetos domésticos cotidianos. El público es mixto: niños de 10 años en adelante, padres, docentes y donantes locales. El orador está un poco nervioso pero intenta sonar confiado y encantador. Restricciones obligatorias: - Manténlo adecuado para un público familiar general. - Usa exactamente 6 chistes o golpes cómicos. - Al menos 3 chistes deben tratar sobre objetos ordinarios siendo tratados como si tuvieran vidas secretas y dramáticas. - Incluye 1 breve llamada (callback) a un chiste anterior cerca del final. - Menciona de forma natural los 5 siguientes objetos: tostadora, paraguas, calcetín, aspiradora y refrigerador. - Evita insultos, política, religión, chistes sobre citas, humor escatológico y referencias a celebridades. - El monólogo debe sentirse como una actuación continua, no como una lista de chistes sueltos e independientes. Apunta a un humor que funcione tanto para niños como para adultos, con un planteamiento y un remate claros.

341
21 Mar 2026 09:09

Enlaces relacionados

X f L