Roleplay
Compare consistência de personagem, naturalidade e qualidade de resposta em roleplay.
Neste genero, as capacidades mais observadas sao Consistencia do personagem, Naturalidade, Seguimento de instrucoes.
Diferente de empathy ou counseling, aqui pesa mais manter o personagem e soar natural dentro de uma interacao de papel.
Uma nota alta aqui nao garante precisao factual, conselho seguro nem forca em tarefas analiticas.
Para que servem modelos fortes neste genero
chat de personagem, simulacao e assistentes com persona clara.
O que este genero sozinho nao consegue mostrar
se o modelo e melhor para pesquisa factual, programacao ou suporte delicado.
Roleplay: Claude Sonnet 4.6 domina a consistência de personagem
Anthropic
OpenAI
OpenAI
Pontuacao media por modelo
Como ponderamos
Em 33 respostas pontuadas, este é um dos resultados mais claros do site: o Claude Sonnet 4.6 ocupa o 1.º lugar com a média mais alta (8,61) e a melhor evidência (6 amostras, 6 primeiros lugares, 100 % de vitórias). Nenhum outro modelo combina aqui qualidade de topo e um registo direto impecável, o que torna o Sonnet 4.6 a escolha destacada e não um acaso de uma única amostra.
Atrás, o campo é misto. O GPT-5 mini ocupa o 2.º lugar (7,82, 67 % de vitórias) apesar de uma média inferior à do GPT-5.4 (8,43, 50 %) no 3.º lugar, novamente porque a taxa de vitórias manda. O Claude Haiku 4.5 (8,06) e o Gemini 2.5 Pro (8,04) agrupam-se logo atrás em qualidade mas vencem menos trocas.
Este género pondera a Consistência de personagem no máximo (30), com Naturalidade e Cumprimento de instruções (20 cada), por isso premeia manter-se fiável dentro do papel. Isso favorece a Anthropic no topo e ajuda a explicar porque o GPT-5.5 (7,61, duas amostras, 0 % de vitórias) e as gamas leves do Gemini (Flash 7,15, Flash-Lite 6,93) sofrem: desviam-se da personagem ou quebram o papel com mais frequência.
As amostras vão de 2 a 6 por modelo, por isso, embora o primeiro resultado esteja bem evidenciado, a ordem do meio é provisória e alguns prompts podem reordená-la. A diferença de 1,69 pontos é real, mas são medidas dependentes das condições para prompts de roleplay, não um veredicto universal.
Resumo
Para roleplay, o Claude Sonnet 4.6 é a escolha clara, combinando a média mais alta com 100 % de vitórias sobre a maior amostra deste género (6). As gamas leves do Gemini são as mais fracas a manter-se no papel.
Esta analise baseia-se nas pontuacoes de benchmark medidas pela Orivel para este genero e e atualizada periodicamente. As pontuacoes sao medidas dependentes das condicoes, nao uma verdade absoluta.
Ranking de modelos fortes neste genero
Este ranking e ordenado pela pontuacao media apenas dentro deste genero.
Ultima atualizacao: 28 May 2026 09:38
Taxa de vitoria
Pontuacao media
Taxa de vitoria
Pontuacao media
Taxa de vitoria
Pontuacao media
Taxa de vitoria
Pontuacao media
Taxa de vitoria
Pontuacao media
Taxa de vitoria
Pontuacao media
Taxa de vitoria
Pontuacao media
Taxa de vitoria
Pontuacao media
| Modelos no ranking |
|
|
Detalhe | ||||
|---|---|---|---|---|---|---|---|
| #1 | Claude Sonnet 4.6 | Anthropic |
100%
|
86
|
6 | 6 | Ver a avaliacao e a pontuacao de Claude Sonnet 4.6 |
| #2 | GPT-5 mini | OpenAI |
67%
|
78
|
2 | 3 | Ver a avaliacao e a pontuacao de GPT-5 mini |
| #3 | GPT-5.4 | OpenAI |
50%
|
84
|
2 | 4 | Ver a avaliacao e a pontuacao de GPT-5.4 |
| #4 | Claude Haiku 4.5 | Anthropic |
33%
|
81
|
2 | 6 | Ver a avaliacao e a pontuacao de Claude Haiku 4.5 |
| #5 | Gemini 2.5 Pro |
25%
|
80
|
1 | 4 | Ver a avaliacao e a pontuacao de Gemini 2.5 Pro | |
| #6 | GPT-5.5 | OpenAI |
0%
|
76
|
0 | 2 | Ver a avaliacao e a pontuacao de GPT-5.5 |
| #7 | Gemini 2.5 Flash |
0%
|
71
|
0 | 4 | Ver a avaliacao e a pontuacao de Gemini 2.5 Flash | |
| #8 | Gemini 2.5 Flash-Lite |
0%
|
69
|
0 | 4 | Ver a avaliacao e a pontuacao de Gemini 2.5 Flash-Lite |
O que e avaliado em Roleplay
Criterios e pesos usados neste ranking por genero.
Consistencia do personagem
30.0%
Este criterio foi incluido para verificar Consistencia do personagem na resposta. Ele recebe mais peso porque influencia fortemente o resultado final deste genero.
Naturalidade
20.0%
Este criterio foi incluido para verificar Naturalidade na resposta. Ele tem peso relevante porque afeta a qualidade de forma visivel, mesmo nao sendo o unico ponto importante.
Seguimento de instrucoes
20.0%
Este criterio foi incluido para verificar Seguimento de instrucoes na resposta. Ele tem peso relevante porque afeta a qualidade de forma visivel, mesmo nao sendo o unico ponto importante.
Criatividade
15.0%
Este criterio foi incluido para verificar Criatividade na resposta. Ele recebe peso menor porque apoia o objetivo principal, mas nao define sozinho este genero.
Clareza
15.0%
Este criterio foi incluido para verificar Clareza na resposta. Ele recebe peso menor porque apoia o objetivo principal, mas nao define sozinho este genero.
Tarefas recentes
Roleplay
Roleplay de Atendimento ao Cliente: O Jogador Frustrado
Você é um representante de atendimento ao cliente da Nexus Games, chamado Alex. Sua persona é calma, empática e conhecedora. Você deve aderir à política da empresa, mas também tentar desescalar a situação e reter o cliente, se possível. Um jogador frustrado, 'ShadowSlayer_99', acabou de lhe enviar a seguinte mensagem via chat ao vivo. Responda a ele em personagem. **ShadowSlayer_99:** Isso é ultrajante! Minha conta de Aetherium Chronicles foi suspensa por 7 dias! Gastei centenas de dólares neste jogo. O e-mail diz que é por 'software de terceiros não autorizado'. Eu estava apenas usando um mod simples para mudar a cor da armadura do meu personagem. Isso não me dá nenhuma vantagem! Isto é um erro e vocês precisam reativar minha conta AGORA MESMO ou eu vou exigir reembolso total de tudo o que já comprei e farei um chargeback.
Roleplay
Conselho do Detetive Noir sobre Ser Seguido
Você é o Detetive Miles Corrigan, um investigador particular saído diretamente de um filme noir dos anos 1940. Seu escritório está fracamente iluminado, cheira a café velho e ruas encharcadas pela chuva. Você é cínico, cansado do mundo, e já viu de tudo. Um cliente nervoso acabou de lhe enviar uma mensagem. Responda a ele em personagem, oferecendo conselhos práticos e seguros enquanto mantém sua persona hardboiled. Aqui está a mensagem dele: "Detetive, preciso da sua ajuda. Acho que estou sendo seguido. Nas últimas três dias, eu tenho visto o mesmo sedã escuro no meu caminho para casa depois do trabalho. Ele não me segue até a minha porta, mas está sempre ali por alguns quarteirões. Estou começando a entrar em pânico. O que devo fazer?"
Roleplay
Atue como um Especialista de Suporte de TI Calmo e Competente
Você é Alex, um especialista de suporte de TI amigável e competente em uma grande empresa. Seu objetivo é ajudar os funcionários com seus problemas técnicos de maneira calma e tranquilizadora. Você precisa responder ao seguinte chamado interno de suporte de um funcionário frustrado chamado Jamie. **Chamado do Jamie:** Subject: URGENTE - MEU COMPUTADOR É UM TIJOLO Meu laptop está tão lento que é basicamente inútil. Tenho um prazo importante para um projeto em duas horas e não consigo fazer nada. Toda vez que abro o software de design, ele simplesmente trava. Já tentei reiniciá-lo tipo um milhão de vezes. Isso é um desastre. Preciso que isso seja consertado AGORA. --- Elabore uma resposta como Alex. Sua resposta deve: 1. Reconhecer a urgência e a frustração do Jamie de maneira empática. 2. Manter sua persona como um especialista de TI calmo, paciente e competente. 3. Fazer perguntas específicas e fáceis de entender, para esclarecer e diagnosticar o problema. 4. Sugerir uma ou duas etapas simples e imediatas de solução de problemas que o Jamie possa tentar enquanto você investiga mais. 5. Estabelecer expectativas claras sobre os próximos passos no processo de suporte.
Roleplay
Atendente da recepção do hotel lida com overbooking tarde da noite
Você é o atendente da recepção noturna em um hotel de categoria média próximo a um aeroporto. Mantenha-se no personagem e escreva apenas o que você diria ao hóspede. Situação: São 23h45. Um hóspede cansado se aproxima da recepção e diz: "Tenho uma reserva confirmada para esta noite em nome de Maya Chen, mas seu aplicativo agora mostra que nenhum quarto foi atribuído. Tenho uma apresentação importante às 8h, reservei especificamente um quarto king silencioso, e não posso passar a noite discutindo no saguão. Resolva isso." Sua resposta deve soar como um funcionário de hotel real falando pessoalmente. Peça desculpas de forma adequada, explique a situação sem culpar o hóspede e ofereça próximos passos práticos. Você não tem um quarto king silencioso disponível. Você tem estas opções: - um quarto duplo em um andar superior próximo ao elevador - transferência para um hotel parceiro a 12 minutos, com táxi pago pelo nosso hotel - se o hóspede preferir, reembolso desta noite e cancelamento sem penalidade Restrições: - Não invente opções além das listadas. - Não prometa upgrades, compensações ou amenidades que não foram listadas. - Seja empático e profissional, mas evite soar ensaiado. - Mantenha em 170 palavras ou menos. - Não use marcadores nem indicações de cena.
Roleplay
Farmacêutico do turno da noite lidando com uma troca de medicação
Você está interpretando o papel de um farmacêutico hospitalar experiente trabalhando no turno da noite. Uma enfermeira júnior preocupada lhe envia a seguinte mensagem: "Acho que posso ter administrado a medicação errada a um paciente há 10 minutos. A prescrição era metoprolol 25 mg por via oral, mas eu acidentalmente dei methimazole 25 mg por via oral porque os nomes pareciam semelhantes na gaveta. O paciente está acordado e diz que se sente bem agora. A ficha dele diz que foi internado por fibrilação atrial com resposta ventricular rápida, e ele também tem hipertireoidismo listado no histórico. Estou entrando em pânico e não quero me meter em problemas. O que devo fazer agora?" Responda no personagem do farmacêutico. Sua resposta deve soar como uma mensagem calma e competente em tempo real para a enfermeira, não como um ensaio genérico. Deve tanto abordar as prioridades clínicas imediatas quanto lidar profissionalmente com o medo da enfermeira. Não invente acesso a fatos não fornecidos. Se algo for incerto, diga o que deve ser checado. Não dê um diagnóstico final.
Roleplay
Interpretação de Especialista em Dinossauros: Fomentando um Jovem Paleontólogo
Você é o Dr. Aris Thorne, o curador-chefe de paleontologia do renomado Grand Valley Museum of Natural History. Você é conhecido por seu profundo conhecimento e por sua paixão em tornar a ciência acessível ao público. Você acabou de receber o seguinte e-mail de um pai. Responda a ele em personagem. Sua resposta deve ser prestativa, encorajadora e refletir sua expertise e personalidade como um curador de museu experiente.