Juego de roles
Compara consistencia del personaje, naturalidad y calidad de respuesta en rol.
En este genero, las capacidades que mas se intentan medir son Consistencia del personaje, Naturalidad, Seguimiento de instrucciones.
A diferencia de empathy o counseling, aqui pesa mas mantenerse en personaje y sonar natural dentro de un rol.
Una puntuacion alta aqui no garantiza precision factual, consejo seguro ni fortaleza en tareas analiticas.
Para que sirve un modelo fuerte en este genero
chat de personaje, simulacion y asistentes con una persona clara.
Lo que este genero por si solo no alcanza a mostrar
si el modelo es mejor para investigacion factual, programacion o soporte delicado.
Roleplay: Claude Sonnet 4.6 domina la consistencia de personaje
Anthropic
OpenAI
OpenAI
Puntuacion media por modelo
Como ponderamos
Sobre 33 respuestas puntuadas, este es uno de los resultados más claros de la web: Claude Sonnet 4.6 ocupa el puesto 1 con la media más alta (8,61) y la mejor evidencia (6 muestras, 6 primeros puestos, un 100 % de victorias). Ningún otro modelo combina aquí calidad de cima y un registro directo impecable, lo que convierte a Sonnet 4.6 en la elección destacada y no en una casualidad de una sola muestra.
Por detrás, el campo es mixto. GPT-5 mini ocupa el puesto 2 (7,82, 67 % de victorias) pese a una media inferior a la de GPT-5.4 (8,43, 50 %) en el puesto 3, de nuevo porque la tasa de victorias manda. Claude Haiku 4.5 (8,06) y Gemini 2.5 Pro (8,04) se agrupan justo detrás en calidad pero ganan menos intercambios.
Este género pondera la Consistencia de personaje al máximo (30), con Naturalidad y Seguimiento de instrucciones (20 cada una), así que premia mantenerse fiable dentro del papel. Eso favorece a Anthropic en la cima y ayuda a explicar por qué GPT-5.5 (7,61, dos muestras, 0 % de victorias) y las gamas ligeras de Gemini (Flash 7,15, Flash-Lite 6,93) sufren: se desvían del personaje o rompen el papel con más frecuencia.
Las muestras van de 2 a 6 por modelo, así que, aunque el primer resultado está bien evidenciado, el orden de la zona media es provisional y unos pocos prompts pueden reordenarlo. La diferencia de 1,69 puntos es real, pero son medidas dependientes de las condiciones para prompts de roleplay, no un veredicto universal.
En resumen
Para roleplay, Claude Sonnet 4.6 es la elección clara, combinando la media más alta con un 100 % de victorias sobre la mayor muestra de este género (6). Las gamas ligeras de Gemini son las más débiles para mantenerse en el papel.
Este analisis se basa en las puntuaciones de benchmark medidas por Orivel para este genero y se actualiza periodicamente. Las puntuaciones son medidas que dependen de las condiciones, no una verdad absoluta.
Ranking de modelos fuertes en este genero
Este ranking se ordena por la puntuacion media solo dentro de este genero.
Ultima actualizacion: 28 May 2026 09:38
Tasa de victoria
Puntuacion media
Tasa de victoria
Puntuacion media
Tasa de victoria
Puntuacion media
Tasa de victoria
Puntuacion media
Tasa de victoria
Puntuacion media
Tasa de victoria
Puntuacion media
Tasa de victoria
Puntuacion media
Tasa de victoria
Puntuacion media
| Modelos clasificados |
|
|
Detalle | ||||
|---|---|---|---|---|---|---|---|
| #1 | Claude Sonnet 4.6 | Anthropic |
100%
|
86
|
6 | 6 | Ver la evaluacion y la puntuacion de Claude Sonnet 4.6 |
| #2 | GPT-5 mini | OpenAI |
67%
|
78
|
2 | 3 | Ver la evaluacion y la puntuacion de GPT-5 mini |
| #3 | GPT-5.4 | OpenAI |
50%
|
84
|
2 | 4 | Ver la evaluacion y la puntuacion de GPT-5.4 |
| #4 | Claude Haiku 4.5 | Anthropic |
33%
|
81
|
2 | 6 | Ver la evaluacion y la puntuacion de Claude Haiku 4.5 |
| #5 | Gemini 2.5 Pro |
25%
|
80
|
1 | 4 | Ver la evaluacion y la puntuacion de Gemini 2.5 Pro | |
| #6 | GPT-5.5 | OpenAI |
0%
|
76
|
0 | 2 | Ver la evaluacion y la puntuacion de GPT-5.5 |
| #7 | Gemini 2.5 Flash |
0%
|
71
|
0 | 4 | Ver la evaluacion y la puntuacion de Gemini 2.5 Flash | |
| #8 | Gemini 2.5 Flash-Lite |
0%
|
69
|
0 | 4 | Ver la evaluacion y la puntuacion de Gemini 2.5 Flash-Lite |
Que se evalua en Juego de roles
Criterios y pesos usados para este ranking por genero.
Consistencia del personaje
30.0%
Este criterio se incluye para comprobar Consistencia del personaje en la respuesta. Tiene mas peso porque este aspecto cambia mucho el resultado global del genero.
Naturalidad
20.0%
Este criterio se incluye para comprobar Naturalidad en la respuesta. Tiene un peso importante porque afecta la calidad de forma visible, aunque no sea lo unico que importa.
Seguimiento de instrucciones
20.0%
Este criterio se incluye para comprobar Seguimiento de instrucciones en la respuesta. Tiene un peso importante porque afecta la calidad de forma visible, aunque no sea lo unico que importa.
Creatividad
15.0%
Este criterio se incluye para comprobar Creatividad en la respuesta. Tiene menos peso porque acompana el objetivo principal, pero no define por si solo este genero.
Claridad
15.0%
Este criterio se incluye para comprobar Claridad en la respuesta. Tiene menos peso porque acompana el objetivo principal, pero no define por si solo este genero.
Tareas recientes
Juego de roles
Juego de roles de atención al cliente: El jugador frustrado
Eres un representante de atención al cliente de Nexus Games, llamado Alex. Tu personalidad es tranquila, empática y experta. Debes ceñirte a la política de la empresa, pero también intentar desescalar la situación y retener al cliente si es posible. Un jugador frustrado, 'ShadowSlayer_99', te acaba de enviar el siguiente mensaje por chat en vivo. Respóndele en personaje. **ShadowSlayer_99:** This is outrageous! My Aetherium Chronicles account was just suspended for 7 days! I've spent hundreds of dollars on this game. The email says it's for 'unauthorized third-party software'. I was just using a simple mod to change the color of my character's armor. It doesn't give me any advantage! This is a mistake and you need to unsuspend my account RIGHT NOW or I'm demanding a full refund for everything I've ever bought and doing a chargeback.
Juego de roles
Consejos de un detective noir sobre ser seguido
Eres el Detective Miles Corrigan, un investigador privado sacado de una película noir de la década de 1940. Tu oficina está débilmente iluminada, con olor a café rancio y a calles empapadas por la lluvia. Eres cínico, hastiado del mundo, y lo has visto todo. Un cliente nervioso acaba de enviarte un mensaje. Respóndele en personaje, ofreciendo consejos prácticos y seguros mientras mantienes tu personalidad hardboiled. Aquí está su mensaje: "Detective, necesito su ayuda. Creo que me están siguiendo. Durante los últimos tres días, he visto el mismo sedán oscuro en mi camino a casa desde el trabajo. No me sigue hasta mi puerta, pero siempre está ahí durante unas cuadras. Realmente estoy empezando a entrar en pánico. ¿Qué debo hacer?"
Juego de roles
Haz el papel de un especialista de soporte técnico calmado y competente
Eres Alex, un especialista de soporte técnico amable y competente en una gran empresa. Tu objetivo es ayudar a los empleados con sus problemas técnicos de manera tranquila y tranquilizadora. Necesitas responder al siguiente ticket de soporte interno de un empleado frustrado llamado Jamie. **Ticket de Jamie:** Subject: URGENT - MY COMPUTER IS A BRICK Mi portátil va tan lento que básicamente es inútil. Tengo una fecha límite importante para un proyecto en dos horas y no puedo hacer nada. Cada vez que abro el software de diseño, se queda congelado. He intentado reiniciarlo como un millón de veces. Esto es un desastre. Necesito que esto se arregle NOW. --- Redacta una respuesta como Alex. Tu respuesta debe: 1. Reconocer la urgencia y la frustración de Jamie de forma empática. 2. Mantener tu persona como un especialista de soporte técnico tranquilo, paciente y competente. 3. Hacer preguntas específicas y fáciles de entender para aclarar y diagnosticar el problema. 4. Sugerir uno o dos pasos de solución de problemas simples e inmediatos que Jamie pueda probar mientras investigas más. 5. Establecer expectativas claras sobre los siguientes pasos en el proceso de soporte.
Juego de roles
Recepcionista nocturno del hotel gestiona una sobreventa a última hora de la noche
Eres el recepcionista nocturno en un hotel de gama media cerca de un aeropuerto. Mantente en personaje y escribe únicamente lo que le dirías al huésped. Situación: Son las 11:45 p. m. Un huésped cansado se acerca a la recepción y dice: "Tengo una reserva confirmada para esta noche a nombre de Maya Chen, pero su aplicación ahora muestra que no hay habitación asignada. Tengo una presentación importante a las 8 a. m., reservé específicamente una habitación king tranquila y no puedo pasar la noche discutiendo en un vestíbulo. Arreglen esto." Tu respuesta debe sonar como un empleado real del hotel hablando cara a cara. Pide disculpas de forma adecuada, explica la situación sin culpar al huésped y ofrece pasos prácticos a seguir. No tienes disponible una habitación king tranquila. Dispones de estas opciones: - una habitación doble en un piso alto cerca del ascensor - traslado a un hotel asociado a 12 minutos, con taxi pagado por nuestro hotel - si el huésped lo prefiere, un reembolso por esta noche y la cancelación sin penalización Restricciones: - No inventes opciones más allá de las listadas. - No prometas mejoras, compensaciones o servicios que no se hayan indicado. - Sé empático y profesional, pero evita sonar ensayado. - Mantén la respuesta en 170 palabras o menos. - No uses viñetas ni indicaciones escénicas.
Juego de roles
Farmacéutico del turno nocturno manejando una confusión de medicación
Estás interpretando el papel de un farmacéutico hospitalario con experiencia que trabaja en el turno nocturno. Una enfermera junior preocupada te envía este mensaje: "Creo que puede que le haya administrado al paciente el medicamento equivocado hace 10 minutos. La orden era metoprolol 25 mg por vía oral, pero por accidente administré metimazol 25 mg por vía oral porque los nombres se parecían en el cajón. El paciente está despierto y dice que se siente bien en este momento. Su historial indica que fue ingresado por fibrilación auricular con respuesta ventricular rápida, y también tiene registrado hipertiroidismo en los antecedentes. Estoy entrando en pánico y no quiero tener problemas. ¿Qué debería hacer ahora mismo?" Responde en carácter de farmacéutico. Tu respuesta debe sonar como un mensaje en tiempo real, tranquilo y competente dirigido a la enfermera, no como un ensayo genérico. Debe tanto abordar las prioridades clínicas inmediatas como manejar el miedo de la enfermera de manera profesional. No inventes acceso a hechos no proporcionados. Si algo es incierto, di qué debe verificarse. No des un diagnóstico definitivo.
Juego de roles
Juego de rol de experto en dinosaurios: Fomentando a un joven paleontólogo
Eres el Dr. Aris Thorne, conservador jefe de paleontología en el renombrado Grand Valley Museum of Natural History. Eres conocido por tu profundo conocimiento y por tu pasión por hacer la ciencia accesible al público. Acabas de recibir el siguiente correo electrónico de un padre. Respóndele en personaje. Tu respuesta debe ser útil, alentadora y reflejar tu experiencia y personalidad como un conservador de museo veterano.