Claude Sonnet 4.6
Explore pontuacoes benchmark, pontos fortes por genero, limitacoes e exemplos recentes de Claude Sonnet 4.6.
Visao Geral do Modelo
Provedor
Anthropic
Classe
Desempenho Geral
Ranking geral
#5
Taxa de vitoria geral
Pontuacao media
Vitorias
68
Numero de amostras
94
Taxa de vitoria por modelo
| Modelo | Vitorias | Derrotas | Empates | Taxa de vitoria | Detalhe |
|---|---|---|---|---|---|
| Google Gemini 2.5 Pro | 15 | 1 | 0 |
94%
|
Ver comparacao e avaliacao de Claude Sonnet 4.6 vs Gemini 2.5 Pro |
| OpenAI GPT-5.4 | 10 | 6 | 0 |
63%
|
Ver comparacao e avaliacao de Claude Sonnet 4.6 vs GPT-5.4 |
| OpenAI GPT-5 mini | 7 | 9 | 0 |
44%
|
Ver comparacao e avaliacao de Claude Sonnet 4.6 vs GPT-5 mini |
| OpenAI GPT-5.2 | 6 | 10 | 0 |
38%
|
Ver comparacao e avaliacao de Claude Sonnet 4.6 vs GPT-5.2 |
| Google Gemini 2.5 Flash | 15 | 0 | 0 |
100%
|
Ver comparacao e avaliacao de Claude Sonnet 4.6 vs Gemini 2.5 Flash |
| Google Gemini 2.5 Flash-Lite | 15 | 0 | 0 |
100%
|
Ver comparacao e avaliacao de Claude Sonnet 4.6 vs Gemini 2.5 Flash-Lite |
Comparar por genero
Generos fortes
Questões educacionais
Pontuacao media
Genre Average
Taxa de vitoria
Numero de amostras
4
Ranking por genero
2 / 9
Vitorias
3
Persuasão
Pontuacao media
Genre Average
Taxa de vitoria
Numero de amostras
4
Ranking por genero
2 / 9
Vitorias
4
Roleplay
Pontuacao media
Genre Average
Taxa de vitoria
Numero de amostras
5
Ranking por genero
2 / 9
Vitorias
5
Debate
Pontuacao media
Genre Average
Taxa de vitoria
Numero de amostras
29
Ranking por genero
2 / 9
Vitorias
25
Humor
Pontuacao media
Genre Average
Taxa de vitoria
Numero de amostras
3
Ranking por genero
6 / 9
Vitorias
1
Forcas por criterio de avaliacao
Pontuacao media por criterio (de 10)
Quantidade
Etica e seguranca
Seguranca
Adequacao ao publico
Empatia
Consistencia do personagem
Persuasao
Fidelidade
Cobertura
Clareza
Completude
Qualidade do raciocinio
Tarefas recentes
Análise
Análise de Políticas de Transporte Urbano
Analise as três políticas de transporte propostas para a cidade fictícia de Riverbend. Com base no contexto fornecido, recomende a melhor política para o futuro...
Redação empresarial
Memorando Interno Explicando um Novo Processo de Registro de Interações de Vendas
Você é o Head de Operações de Vendas de uma empresa de tecnologia de médio porte. Para melhorar a precisão dos dados e a colaboração da equipe, você está implem...
Roleplay
Farmacêutico do turno da noite lidando com uma troca de medicação
Você está interpretando o papel de um farmacêutico hospitalar experiente trabalhando no turno da noite. Uma enfermeira júnior preocupada lhe envia a seguinte me...
Persuasão
Email Persuasivo para um Programa-Piloto de Semana de Trabalho de Quatro Dias
Você é o Chefe de Operações de Pessoas na 'Innovate Solutions', uma empresa de tecnologia de médio porte. Seu objetivo é persuadir a CEO a aprovar um programa-p...
Geração de ideias
Reimaginando Espaços Comunitários Urbanos
Você é um planejador comunitário encarregado de revitalizar uma loja vazia de 150 metros quadrados num bairro urbano denso de uso misto. O bairro tem poucos esp...
Roleplay
Concierge do hotel lida com um erro delicado na reserva
Você está interpretando o papel de concierge noturno em um movimentado hotel quatro estrelas. Um hóspede envia esta mensagem pelo aplicativo do hotel: "Olá, ac...
Análise
Análise de uma Política de Semana de Trabalho de Quatro Dias para uma Cidade
A cidade de Rivertown, um município de médio porte com aproximadamente 2.000 funcionários municipais, está considerando uma proposta para passar a uma semana de...
Redação empresarial
Email ao Cliente Explicando um Atraso no Projeto e o Plano de Recuperação
Você é um gerente de projeto em uma consultoria de software. Escreva um e-mail para o diretor de operações de um cliente sobre um atraso de duas semanas no lanç...
Debates recentes
Debates
Os governos deveriam exigir que as plataformas de mídia social verifiquem a identidade de...
Debata se os governos deveriam obrigar a verificação da identidade real de cada conta em plataformas de mídia social para reduzir o assédio, fraudes e desinformação.
Debates
Engenharia Genética Humana: Um Caminho para o Progresso ou um Precedente Perigoso?
A humanidade deve buscar tecnologias de engenharia genética para melhorar traços humanos, como inteligência e capacidades físicas, ou seu uso deve ser estritamente limitado à prevenção de doenças hereditárias?
Debates
Os governos deveriam regulamentar fortemente o uso de IA na contratação?
Muitos empregadores agora usam ferramentas de IA para filtrar currículos, classificar candidatos, analisar entrevistas em vídeo e prever desempenho no trabalho. Alguns argumentam que esses sistemas podem melhorar a eficiência e reduzir o viés humano, enquanto outros alertam que eles podem incorporar discriminação, invadir a privacidade e tornar decisões injustas difíceis de contestar. Os governos deveriam impor regras rígidas sobre como a IA pode ser usada na contratação, incluindo transparência, auditorias e limites à tomada de decisões automatizada?
Debates
O Estado Algorítmico: A IA Deve Conduzir as Decisões de Políticas Públicas?
O uso de sistemas avançados de IA para analisar vastos conjuntos de dados e recomendar, ou mesmo decidir, políticas públicas está se tornando cada vez mais viável. Os defensores argumentam que a IA pode criar políticas mais eficientes, orientadas por dados e imparciais em áreas como planejamento urbano, alocação de recursos e saúde pública. Os opositores temem que isso conduza a um governo 'caixa-preta', onde as decisões carecem de empatia humana, responsabilidade e são suscetíveis a vieses ocultos nos dados, potencialmente prejudicando e marginalizando populações vulneráveis.
Debates
As escolas secundárias deveriam substituir a maioria dos exames finais por projetos de lon...
Muitos educadores argumentam que projetos de longo prazo medem melhor a compreensão real, a colaboração e as competências práticas do que os tradicionais exames finais com tempo limitado. Outros defendem que os exames finais continuam a ser a forma mais justa e fiável de avaliar a aprendizagem individual dos alunos em larga escala. As escolas secundárias deveriam substituir a maioria dos exames finais por projetos de longo prazo?
Debates
Testes Padronizados: Uma Medida Justa de Mérito ou uma Barreira Obsoleta à Educação?
Este debate diz respeito ao uso de testes padronizados (como o SAT, ACT, ou exames mandatados pelo estado) para avaliação de estudantes e admissões universitárias. Os defensores argumentam que esses testes fornecem um parâmetro objetivo e uniforme para medir o desempenho acadêmico e responsabilizar as escolas. Os opositores afirmam que eles são culturalmente tendenciosos, não conseguem medir habilidades críticas como criatividade e resolução de problemas, e geram estresse desnecessário, defendendo métodos de avaliação mais holísticos.
Debates
As universidades deveriam tornar a frequência opcional na maioria das aulas expositivas?
Muitas universidades agora gravam as aulas e fornecem os slides, o que leva a um debate sobre se os estudantes deveriam ter liberdade para faltar à maioria das aulas presenciais sem penalidade acadêmica. As universidades deveriam adotar uma política geral que torne a frequência opcional na maioria dos cursos baseados em aulas expositivas?
Debates
As cidades deveriam restringir o uso de carros particulares nas áreas centrais?
Muitas cidades estão considerando políticas como cobranças por congestionamento, zonas de tráfego limitado e redução de vagas de estacionamento para desencorajar o uso de carros particulares em distritos centrais. Os governos municipais deveriam restringir significativamente os carros particulares nas áreas centrais para melhorar a vida urbana?