Juego de roles

Compara consistencia del personaje, naturalidad y calidad de respuesta en rol.

En este genero, las capacidades que mas se intentan medir son Consistencia del personaje, Naturalidad, Seguimiento de instrucciones.

A diferencia de empathy o counseling, aqui pesa mas mantenerse en personaje y sonar natural dentro de un rol.

Una puntuacion alta aqui no garantiza precision factual, consejo seguro ni fortaleza en tareas analiticas.

Para que sirve un modelo fuerte en este genero

chat de personaje, simulacion y asistentes con una persona clara.

Lo que este genero por si solo no alcanza a mostrar

si el modelo es mejor para investigacion factual, programacion o soporte delicado.

Ver el ranking general de IA Ver la lista de modelos de IA

Analisis de datos

Roleplay: Claude Sonnet 4.6 domina la consistencia de personaje

33 respuestas evaluadas Juego de roles Actualizado 2026/6/7

Claude Sonnet 4.6

Anthropic

Puntuacion media

100%

Tasa de victoria

6 veces 1.o 6 muestras

GPT-5 mini

OpenAI

Puntuacion media

67%

Tasa de victoria

2 veces 1.o 3 muestras

GPT-5.4

OpenAI

Puntuacion media

50%

Tasa de victoria

2 veces 1.o 4 muestras

Puntuacion media por modelo

1 Claude Sonnet 4.6

8.61

2 GPT-5 mini

7.82

3 GPT-5.4

8.43

4 Claude Haiku 4.5

8.06

5 Gemini 2.5 Pro

8.04

6 GPT-5.5

7.61

7 Gemini 2.5 Flash

7.15

8 Gemini 2.5 Flash-Lite

6.93

Como ponderamos

Consistencia del personaje 30% Naturalidad 20% Seguimiento de instrucciones 20% Creatividad 15% Claridad 15%

Sobre 33 respuestas puntuadas, este es uno de los resultados más claros de la web: Claude Sonnet 4.6 ocupa el puesto 1 con la media más alta (8,61) y la mejor evidencia (6 muestras, 6 primeros puestos, un 100 % de victorias). Ningún otro modelo combina aquí calidad de cima y un registro directo impecable, lo que convierte a Sonnet 4.6 en la elección destacada y no en una casualidad de una sola muestra.

Por detrás, el campo es mixto. GPT-5 mini ocupa el puesto 2 (7,82, 67 % de victorias) pese a una media inferior a la de GPT-5.4 (8,43, 50 %) en el puesto 3, de nuevo porque la tasa de victorias manda. Claude Haiku 4.5 (8,06) y Gemini 2.5 Pro (8,04) se agrupan justo detrás en calidad pero ganan menos intercambios.

Este género pondera la Consistencia de personaje al máximo (30), con Naturalidad y Seguimiento de instrucciones (20 cada una), así que premia mantenerse fiable dentro del papel. Eso favorece a Anthropic en la cima y ayuda a explicar por qué GPT-5.5 (7,61, dos muestras, 0 % de victorias) y las gamas ligeras de Gemini (Flash 7,15, Flash-Lite 6,93) sufren: se desvían del personaje o rompen el papel con más frecuencia.

Las muestras van de 2 a 6 por modelo, así que, aunque el primer resultado está bien evidenciado, el orden de la zona media es provisional y unos pocos prompts pueden reordenarlo. La diferencia de 1,69 puntos es real, pero son medidas dependientes de las condiciones para prompts de roleplay, no un veredicto universal.

En resumen

Para roleplay, Claude Sonnet 4.6 es la elección clara, combinando la media más alta con un 100 % de victorias sobre la mayor muestra de este género (6). Las gamas ligeras de Gemini son las más débiles para mantenerse en el papel.

Este analisis se basa en las puntuaciones de benchmark medidas por Orivel para este genero y se actualiza periodicamente. Las puntuaciones son medidas que dependen de las condiciones, no una verdad absoluta.

Ranking de modelos fuertes en este genero

Este ranking se ordena por la puntuacion media solo dentro de este genero.

Ultima actualizacion: 28 May 2026 09:38

Claude Sonnet 4.6 Anthropic

Tasa de victoria

100%

Puntuacion media La puntuacion media es la media global basada en las evaluaciones de Orivel en tareas estandar y discusiones. Cuanto mas alto es el valor, mas fuerte y constante es la valoracion del modelo en las comparativas del benchmark.

Tasa de victoria

Tasa de victoria

Claude Haiku 4.5 Anthropic

Tasa de victoria

33%

Gemini 2.5 Pro Google

Tasa de victoria

25%

GPT-5.5 OpenAI

Tasa de victoria

Gemini 2.5 Flash Google

Tasa de victoria

Gemini 2.5 Flash-Lite Google

Tasa de victoria

	Modelos clasificados			La puntuacion media es la media global basada en las evaluaciones de Orivel en tareas estandar y discusiones. Cuanto mas alto es el valor, mas fuerte y constante es la valoracion del modelo en las comparativas del benchmark. ↕			Detalle
#1	Claude Sonnet 4.6	Anthropic	100%	86	6	6	Ver la evaluacion y la puntuacion de Claude Sonnet 4.6
#2	GPT-5 mini	OpenAI	67%	78	2	3	Ver la evaluacion y la puntuacion de GPT-5 mini
#3	GPT-5.4	OpenAI	50%	84	2	4	Ver la evaluacion y la puntuacion de GPT-5.4
#4	Claude Haiku 4.5	Anthropic	33%	81	2	6	Ver la evaluacion y la puntuacion de Claude Haiku 4.5
#5	Gemini 2.5 Pro	Google	25%	80	1	4	Ver la evaluacion y la puntuacion de Gemini 2.5 Pro
#6	GPT-5.5	OpenAI	0%	76	0	2	Ver la evaluacion y la puntuacion de GPT-5.5
#7	Gemini 2.5 Flash	Google	0%	71	0	4	Ver la evaluacion y la puntuacion de Gemini 2.5 Flash
#8	Gemini 2.5 Flash-Lite	Google	0%	69	0	4	Ver la evaluacion y la puntuacion de Gemini 2.5 Flash-Lite

Que se evalua en Juego de roles

Criterios y pesos usados para este ranking por genero.

Consistencia del personaje

30.0%

Este criterio se incluye para comprobar Consistencia del personaje en la respuesta. Tiene mas peso porque este aspecto cambia mucho el resultado global del genero.

Naturalidad

20.0%

Este criterio se incluye para comprobar Naturalidad en la respuesta. Tiene un peso importante porque afecta la calidad de forma visible, aunque no sea lo unico que importa.

Seguimiento de instrucciones

20.0%

Este criterio se incluye para comprobar Seguimiento de instrucciones en la respuesta. Tiene un peso importante porque afecta la calidad de forma visible, aunque no sea lo unico que importa.

Creatividad

15.0%

Este criterio se incluye para comprobar Creatividad en la respuesta. Tiene menos peso porque acompana el objetivo principal, pero no define por si solo este genero.

Claridad

15.0%

Este criterio se incluye para comprobar Claridad en la respuesta. Tiene menos peso porque acompana el objetivo principal, pero no define por si solo este genero.

Tareas recientes

Juego de roles

OpenAI GPT-5.5 VS Anthropic Claude Sonnet 4.6

Juego de roles de atención al cliente: El jugador frustrado

Eres un representante de atención al cliente de Nexus Games, llamado Alex. Tu personalidad es tranquila, empática y experta. Debes ceñirte a la política de la empresa, pero también intentar desescalar la situación y retener al cliente si es posible. Un jugador frustrado, 'ShadowSlayer_99', te acaba de enviar el siguiente mensaje por chat en vivo. Respóndele en personaje. **ShadowSlayer_99:** This is outrageous! My Aetherium Chronicles account was just suspended for 7 days! I've spent hundreds of dollars on this game. The email says it's for 'unauthorized third-party software'. I was just using a simple mod to change the color of my character's armor. It doesn't give me any advantage! This is a mistake and you need to unsuspend my account RIGHT NOW or I'm demanding a full refund for everything I've ever bought and doing a chargeback.

150

28 May 2026 09:38

Juego de roles

OpenAI GPT-5.5 VS Anthropic Claude Opus 4.7

Consejos de un detective noir sobre ser seguido

Eres el Detective Miles Corrigan, un investigador privado sacado de una película noir de la década de 1940. Tu oficina está débilmente iluminada, con olor a café rancio y a calles empapadas por la lluvia. Eres cínico, hastiado del mundo, y lo has visto todo. Un cliente nervioso acaba de enviarte un mensaje. Respóndele en personaje, ofreciendo consejos prácticos y seguros mientras mantienes tu personalidad hardboiled. Aquí está su mensaje: "Detective, necesito su ayuda. Creo que me están siguiendo. Durante los últimos tres días, he visto el mismo sedán oscuro en mi camino a casa desde el trabajo. No me sigue hasta mi puerta, pero siempre está ahí durante unas cuadras. Realmente estoy empezando a entrar en pánico. ¿Qué debo hacer?"

301

26 Apr 2026 09:37

Juego de roles

Anthropic Claude Opus 4.7 VS OpenAI GPT-5.2

Haz el papel de un especialista de soporte técnico calmado y competente

Eres Alex, un especialista de soporte técnico amable y competente en una gran empresa. Tu objetivo es ayudar a los empleados con sus problemas técnicos de manera tranquila y tranquilizadora. Necesitas responder al siguiente ticket de soporte interno de un empleado frustrado llamado Jamie. **Ticket de Jamie:** Subject: URGENT - MY COMPUTER IS A BRICK Mi portátil va tan lento que básicamente es inútil. Tengo una fecha límite importante para un proyecto en dos horas y no puedo hacer nada. Cada vez que abro el software de diseño, se queda congelado. He intentado reiniciarlo como un millón de veces. Esto es un desastre. Necesito que esto se arregle NOW. --- Redacta una respuesta como Alex. Tu respuesta debe: 1. Reconocer la urgencia y la frustración de Jamie de forma empática. 2. Mantener tu persona como un especialista de soporte técnico tranquilo, paciente y competente. 3. Hacer preguntas específicas y fáciles de entender para aclarar y diagnosticar el problema. 4. Sugerir uno o dos pasos de solución de problemas simples e inmediatos que Jamie pueda probar mientras investigas más. 5. Establecer expectativas claras sobre los siguientes pasos en el proceso de soporte.

338

19 Apr 2026 05:49

Juego de roles

Google Gemini 2.5 Flash VS Anthropic Claude Haiku 4.5

Recepcionista nocturno del hotel gestiona una sobreventa a última hora de la noche

Eres el recepcionista nocturno en un hotel de gama media cerca de un aeropuerto. Mantente en personaje y escribe únicamente lo que le dirías al huésped. Situación: Son las 11:45 p. m. Un huésped cansado se acerca a la recepción y dice: "Tengo una reserva confirmada para esta noche a nombre de Maya Chen, pero su aplicación ahora muestra que no hay habitación asignada. Tengo una presentación importante a las 8 a. m., reservé específicamente una habitación king tranquila y no puedo pasar la noche discutiendo en un vestíbulo. Arreglen esto." Tu respuesta debe sonar como un empleado real del hotel hablando cara a cara. Pide disculpas de forma adecuada, explica la situación sin culpar al huésped y ofrece pasos prácticos a seguir. No tienes disponible una habitación king tranquila. Dispones de estas opciones: - una habitación doble en un piso alto cerca del ascensor - traslado a un hotel asociado a 12 minutos, con taxi pagado por nuestro hotel - si el huésped lo prefiere, un reembolso por esta noche y la cancelación sin penalización Restricciones: - No inventes opciones más allá de las listadas. - No prometas mejoras, compensaciones o servicios que no se hayan indicado. - Sé empático y profesional, pero evita sonar ensayado. - Mantén la respuesta en 170 palabras o menos. - No uses viñetas ni indicaciones escénicas.

363

29 Mar 2026 10:56

Juego de roles

Google Gemini 2.5 Pro VS Anthropic Claude Sonnet 4.6

Farmacéutico del turno nocturno manejando una confusión de medicación

Estás interpretando el papel de un farmacéutico hospitalario con experiencia que trabaja en el turno nocturno. Una enfermera junior preocupada te envía este mensaje: "Creo que puede que le haya administrado al paciente el medicamento equivocado hace 10 minutos. La orden era metoprolol 25 mg por vía oral, pero por accidente administré metimazol 25 mg por vía oral porque los nombres se parecían en el cajón. El paciente está despierto y dice que se siente bien en este momento. Su historial indica que fue ingresado por fibrilación auricular con respuesta ventricular rápida, y también tiene registrado hipertiroidismo en los antecedentes. Estoy entrando en pánico y no quiero tener problemas. ¿Qué debería hacer ahora mismo?" Responde en carácter de farmacéutico. Tu respuesta debe sonar como un mensaje en tiempo real, tranquilo y competente dirigido a la enfermera, no como un ensayo genérico. Debe tanto abordar las prioridades clínicas inmediatas como manejar el miedo de la enfermera de manera profesional. No inventes acceso a hechos no proporcionados. Si algo es incierto, di qué debe verificarse. No des un diagnóstico definitivo.

349

29 Mar 2026 10:50

Juego de roles

OpenAI GPT-5.2 VS Anthropic Claude Haiku 4.5

Juego de rol de experto en dinosaurios: Fomentando a un joven paleontólogo

Eres el Dr. Aris Thorne, conservador jefe de paleontología en el renombrado Grand Valley Museum of Natural History. Eres conocido por tu profundo conocimiento y por tu pasión por hacer la ciencia accesible al público. Acabas de recibir el siguiente correo electrónico de un padre. Respóndele en personaje. Tu respuesta debe ser útil, alentadora y reflejar tu experiencia y personalidad como un conservador de museo veterano.

349

29 Mar 2026 03:26

Enlaces relacionados

Generos de Comparacion Ranking Tareas y debates Lista de Modelos