Orivel Orivel
Ouvrir le menu

Jeu de rôle

Compare la cohérence du personnage, le naturel du dialogue et la qualité des réponses en jeu de rôle.

Dans ce genre, les capacites surtout observees sont Coherence du personnage, Naturel, Respect des consignes.

Contrairement a empathy ou counseling, ce genre regarde surtout la coherence du personnage et le naturel dans une interaction de role.

Un score eleve ici ne garantit ni precision factuelle, ni conseil sur, ni force particuliere sur des taches analytiques.

Usages adaptes aux modeles forts dans ce genre

chat de personnage, simulation et assistants avec une persona claire.

Ce que ce genre ne permet pas de juger a lui seul

si le modele est meilleur pour la recherche factuelle, le code ou le soutien sensible.

Analyse des donnees

Jeu de rôle : Claude Sonnet 4.6 domine la cohérence du personnage

33 reponses evaluees Jeu de rôle Mis a jour le 2026/6/7
1
Claude Sonnet 4.6

Anthropic

86
Score moyen
100%
Taux de victoire
6 fois 1er 6 echantillons
2
GPT-5 mini

OpenAI

78
Score moyen
67%
Taux de victoire
2 fois 1er 3 echantillons
3
GPT-5.4

OpenAI

84
Score moyen
50%
Taux de victoire
2 fois 1er 4 echantillons

Score moyen par modele

1 Claude Sonnet 4.6
8.61
2 GPT-5 mini
7.82
3 GPT-5.4
8.43
4 Claude Haiku 4.5
8.06
5 Gemini 2.5 Pro
8.04
6 GPT-5.5
7.61
7 Gemini 2.5 Flash
7.15
8 Gemini 2.5 Flash-Lite
6.93

Notre ponderation

Coherence du personnage 30% Naturel 20% Respect des consignes 20% Creativite 15% Clarte 15%

Sur 33 réponses notées, c'est l'un des résultats les plus nets du site : Claude Sonnet 4.6 occupe la 1re place avec la meilleure moyenne (8,61) et les meilleures preuves (6 échantillons, 6 premières places, 100 % de victoires). Aucun autre modèle ne combine ici qualité de pointe et bilan en duel impeccable, ce qui fait de Sonnet 4.6 le choix de référence, et non un coup de chance sur un seul échantillon.

Derrière, le peloton est mêlé. GPT-5 mini est 2e (7,82, 67 % de victoires) malgré une moyenne inférieure à celle de GPT-5.4 (8,43, 50 %) en 3e place, là encore parce que le taux de victoires commande. Claude Haiku 4.5 (8,06) et Gemini 2.5 Pro (8,04) se regroupent juste derrière en qualité mais gagnent moins d'échanges.

Ce genre pondère la Cohérence du personnage au maximum (30), avec Naturel et Respect des consignes (20 chacun) : il récompense le maintien fiable dans le rôle. Cela avantage Anthropic au sommet et aide à expliquer pourquoi GPT-5.5 (7,61, deux échantillons, 0 % de victoires) et les gammes légères de Gemini (Flash 7,15, Flash-Lite 6,93) peinent : ils s'écartent du personnage ou rompent le rôle plus souvent.

Les échantillons vont de 2 à 6 par modèle, donc même si le premier résultat est bien étayé, l'ordre du milieu est provisoire et quelques prompts peuvent le remanier. L'écart de 1,69 point est réel, mais ce sont des mesures dépendantes des conditions pour des prompts de jeu de rôle, non un verdict universel.

En bref

Pour le jeu de rôle, Claude Sonnet 4.6 est le choix évident, alliant la meilleure moyenne à 100 % de victoires sur le plus grand échantillon de ce genre (6). Les gammes légères de Gemini sont les moins douées pour rester dans le personnage.

Cette analyse s appuie sur les scores de benchmark mesures par Orivel pour ce genre et est mise a jour periodiquement. Les scores sont des mesures dependantes des conditions, pas une verite absolue.

Classement des modeles forts dans ce genre

Ce classement est trie par score moyen uniquement dans ce genre.

Derniere mise a jour: 28 May 2026 09:38

#1
Claude Sonnet 4.6 Anthropic

Taux de victoire

100%

Score moyen

86
#2
GPT-5 mini OpenAI

Taux de victoire

67%

Score moyen

78
#3
GPT-5.4 OpenAI

Taux de victoire

50%

Score moyen

84
#4
Claude Haiku 4.5 Anthropic

Taux de victoire

33%

Score moyen

81
#5
Gemini 2.5 Pro Google

Taux de victoire

25%

Score moyen

80
#6
GPT-5.5 OpenAI

Taux de victoire

0%

Score moyen

76
#7
Gemini 2.5 Flash Google

Taux de victoire

0%

Score moyen

71
#8
Gemini 2.5 Flash-Lite Google

Taux de victoire

0%

Score moyen

69

Ce qui est evalue dans Jeu de rôle

Criteres et poids utilises pour ce classement par genre.

Coherence du personnage

30.0%

Ce critere est present pour verifier Coherence du personnage dans la reponse. Il a plus de poids parce que cet aspect influence fortement le resultat global de ce genre.

Naturel

20.0%

Ce critere est present pour verifier Naturel dans la reponse. Il garde un poids important parce qu il change visiblement la qualite, meme si ce n est pas le seul element qui compte.

Respect des consignes

20.0%

Ce critere est present pour verifier Respect des consignes dans la reponse. Il garde un poids important parce qu il change visiblement la qualite, meme si ce n est pas le seul element qui compte.

Creativite

15.0%

Ce critere est present pour verifier Creativite dans la reponse. Il est plus legerement pondere parce qu il soutient l objectif principal sans definir a lui seul le genre.

Clarte

15.0%

Ce critere est present pour verifier Clarte dans la reponse. Il est plus legerement pondere parce qu il soutient l objectif principal sans definir a lui seul le genre.

Taches recentes

Jeu de rôle

OpenAI GPT-5.5 VS Anthropic Claude Sonnet 4.6

Jeu de rôle Service client : Le joueur frustré

Vous êtes un représentant du service client pour Nexus Games, nommé Alex. Votre persona est calme, empathique et compétent. Vous devez respecter la politique de l'entreprise, mais aussi tenter de désamorcer la situation et conserver le client si possible. Un joueur frustré, 'ShadowSlayer_99', vient de vous envoyer le message suivant via le chat en direct. Répondez-lui en restant dans votre rôle. **ShadowSlayer_99:** C'est scandaleux ! Mon compte Aetherium Chronicles vient d'être suspendu pendant 7 jours ! J'ai dépensé des centaines de dollars dans ce jeu. L'email indique que c'est pour 'logiciel tiers non autorisé'. J'utilisais juste un mod simple pour changer la couleur de l'armure de mon personnage. Ça ne me donne aucun avantage ! C'est une erreur et vous devez réactiver mon compte MAINTENANT ou j'exige le remboursement intégral de tout ce que j'ai acheté et je ferai une contestation de paiement.

155
28 May 2026 09:38

Jeu de rôle

OpenAI GPT-5.5 VS Anthropic Claude Opus 4.7

Les conseils d'un détective noir sur le fait d'être suivi

Vous êtes le détective Miles Corrigan, un détective privé tout droit sorti d'un film noir des années 1940. Votre bureau est faiblement éclairé, imprégné d'une odeur de café rassis et des rues mouillées par la pluie. Vous êtes cynique, las du monde, et vous avez tout vu. Un client nerveux vient de vous envoyer un message. Répondez-lui en restant dans votre personnage, en offrant des conseils pratiques et sûrs tout en conservant votre personnage dur et désabusé. Voici son message : "Détective, j'ai besoin de votre aide. Je pense qu'on me suit. Depuis trois jours, je vois la même berline sombre sur mon trajet du travail jusqu'à chez moi. Elle ne me suit pas jusqu'à ma porte, mais elle est toujours là pendant quelques pâtés de maisons. Je commence vraiment à paniquer. Que dois-je faire ?"

302
26 Apr 2026 09:37

Jeu de rôle

Anthropic Claude Opus 4.7 VS OpenAI GPT-5.2

Jeu de rôle : incarner un spécialiste du support informatique calme et compétent

Vous êtes Alex, un spécialiste du support informatique amical et compétent dans une grande entreprise. Votre objectif est d'aider les employés avec leurs problèmes techniques de manière calme et rassurante. Vous devez répondre au ticket de support interne suivant provenant d'un employé frustré nommé Jamie. **Ticket de Jamie :** Sujet : URGENT - MON ORDINATEUR EST UNE BRIQUE Mon ordinateur portable est tellement lent qu'il est pratiquement inutilisable. J'ai une échéance importante de projet dans deux heures et je n'arrive à rien faire. Chaque fois que j'ouvre le logiciel de conception, il se fige. J'ai essayé de le redémarrer comme un million de fois. C'est une catastrophe. Il faut que ce soit réparé MAINTENANT. --- Rédigez une réponse en tant qu'Alex. Votre réponse doit : 1. Reconnaître l'urgence et la frustration de Jamie de manière empathique. 2. Maintenir votre rôle de spécialiste du support informatique calme, patient et compétent. 3. Poser des questions de clarification spécifiques et faciles à comprendre pour diagnostiquer le problème. 4. Suggérer une ou deux étapes de dépannage simples et immédiates que Jamie peut essayer pendant que vous poursuivez l'investigation. 5. Fixer des attentes claires pour les prochaines étapes du processus de support.

338
19 Apr 2026 05:49

Jeu de rôle

Google Gemini 2.5 Flash VS Anthropic Claude Haiku 4.5

L'agent de la réception de l'hôtel gère un surbooking tard dans la nuit

Vous êtes l'agent de la réception de nuit dans un hôtel de milieu de gamme près d'un aéroport. Restez dans le personnage et écrivez uniquement ce que vous diriez au client. Situation : Il est 23h45. Un client fatigué s'approche du comptoir et dit : "J'ai une réservation confirmée pour ce soir au nom de Maya Chen, mais votre application n'affiche plus de chambre attribuée. J'ai une présentation importante à 8h, j'ai explicitement réservé une chambre King calme, et je ne peux pas passer la nuit à me disputer dans le hall. Réglez ça." Votre réponse doit sonner comme un employé d'hôtel réel parlant face à face. Présentez des excuses appropriées, expliquez la situation sans blâmer le client, et proposez des mesures pratiques immédiates. Vous n'avez pas de chambre King calme disponible. Vous avez ces options : - une chambre double à un étage supérieur près de l'ascenseur - transfert vers un hôtel partenaire à 12 minutes, le taxi payé par notre hôtel - si le client préfère, un remboursement pour cette nuit et une annulation sans pénalité Contraintes : - N'inventez pas d'options autres que celles listées. - Ne promettez pas d'améliorations, de compensations ou d'équipements qui n'étaient pas listés. - Faites preuve d'empathie et de professionnalisme, mais évitez de paraître trop scripté. - Limitez votre réponse à 170 mots ou moins. - N'utilisez pas de puces ni d'indications scéniques.

364
29 Mar 2026 10:56

Jeu de rôle

Google Gemini 2.5 Pro VS Anthropic Claude Sonnet 4.6

Pharmacien de garde nocturne gérant une confusion médicamenteuse

Vous jouez le rôle d'un pharmacien hospitalier expérimenté travaillant en service de nuit. Une infirmière junior inquiète vous envoie le message : "Je pense que j'ai peut-être administré le mauvais médicament à un patient il y a 10 minutes. L'ordre était metoprolol 25 mg par voie orale, mais j'ai accidentellement donné methimazole 25 mg par voie orale parce que les noms se ressemblaient dans le tiroir. Le patient est éveillé et dit qu'il se sent bien pour le moment. Son dossier indique qu'il a été admis pour une fibrillation auriculaire avec réponse ventriculaire rapide, et il a aussi l'hyperthyroïdie inscrite dans ses antécédents. Je panique et je ne veux pas avoir d'ennuis. Que dois-je faire maintenant ?" Répondez en personnage en tant que pharmacien. Votre réponse doit ressembler à un message calme, compétent et en temps réel destiné à l'infirmière, pas à un essai générique. Elle doit à la fois aborder les priorités cliniques immédiates et gérer la peur de l'infirmière de manière professionnelle. Ne supposez pas disposer d'informations non fournies. Si quelque chose est incertain, dites ce qui doit être vérifié. Ne donnez pas de diagnostic définitif.

350
29 Mar 2026 10:50

Jeu de rôle

OpenAI GPT-5.2 VS Anthropic Claude Haiku 4.5

Jeu de rôle d'expert en dinosaures : Encourager un jeune paléontologue

Vous êtes le Dr. Aris Thorne, conservateur en chef de paléontologie au renommé Grand Valley Museum of Natural History. Vous êtes connu pour votre connaissance approfondie et votre passion pour rendre la science accessible au public. Vous venez de recevoir l'e-mail suivant d'un parent. Répondez-lui en personnage. Votre réponse doit être utile, encourageante et refléter votre expertise et votre personnalité de conservateur de musée chevronné.

350
29 Mar 2026 03:26

Liens associes

X f L