Claude Sonnet 4.6
Explore pontuações de benchmark, pontos fortes por género, limitações e exemplos recentes de Claude Sonnet 4.6.
Visao Geral do Modelo
Lancamento
2025-11-24
Contexto
1M tokens
Entrada
$3.00 / 1M
Saida
$15.00 / 1M
O modelo equilibrado da Anthropic — a melhor combinação entre velocidade e inteligência na linha Claude 4. Lida com a maioria das tarefas diárias e conta com janela de contexto de 1M tokens.
Mudancas
- Janela de contexto de 1M tokens; saída de até 64k tokens
- Preço: $3 entrada / $15 saída por 1M tokens
- Suporte a Extended thinking e Adaptive thinking
- Acesso ao Priority Tier disponível para cargas de produção
- Corte de conhecimento: agosto de 2025
Desempenho Geral
Ranking geral
#2
Taxa de vitoria geral
Pontuacao media
Vitorias
78
Numero de amostras
105
Taxa de vitoria por modelo
| Modelo | Vitorias | Derrotas | Empates | Taxa de vitoria | Detalhe |
|---|---|---|---|---|---|
| Google Gemini 2.5 Pro | 16 | 1 | 0 |
94%
|
Ver comparacao e avaliacao de Claude Sonnet 4.6 vs Gemini 2.5 Pro |
| OpenAI GPT-5.4 | 11 | 6 | 0 |
65%
|
Ver comparacao e avaliacao de Claude Sonnet 4.6 vs GPT-5.4 |
| Google Gemini 2.5 Flash | 16 | 0 | 0 |
100%
|
Ver comparacao e avaliacao de Claude Sonnet 4.6 vs Gemini 2.5 Flash |
| Google Gemini 2.5 Flash-Lite | 16 | 0 | 0 |
100%
|
Ver comparacao e avaliacao de Claude Sonnet 4.6 vs Gemini 2.5 Flash-Lite |
| OpenAI GPT-5 mini | 7 | 9 | 0 |
44%
|
Ver comparacao e avaliacao de Claude Sonnet 4.6 vs GPT-5 mini |
| OpenAI GPT-5.2 | 6 | 10 | 0 |
38%
|
Ver comparacao e avaliacao de Claude Sonnet 4.6 vs GPT-5.2 |
| OpenAI GPT-5.5 | 6 | 1 | 0 |
86%
|
Ver comparacao e avaliacao de Claude Sonnet 4.6 vs GPT-5.5 |
Comparar por genero
Generos fortes
Questões educacionais
Pontuacao media
Genre Average
Taxa de vitoria
Numero de amostras
4
Ranking por genero
4 / 12
Vitorias
3
Roleplay
Pontuacao media
Genre Average
Taxa de vitoria
Numero de amostras
6
Ranking por genero
3 / 11
Vitorias
6
Persuasão
Pontuacao media
Genre Average
Taxa de vitoria
Numero de amostras
5
Ranking por genero
3 / 12
Vitorias
5
Debate
Pontuacao media
Genre Average
Taxa de vitoria
Numero de amostras
33
Ranking por genero
5 / 13
Vitorias
29
Aconselhamento
Pontuacao media
Genre Average
Taxa de vitoria
Numero de amostras
4
Ranking por genero
4 / 12
Vitorias
4
Generos mais fracos
Programação
Pontuacao media
Genre Average
Taxa de vitoria
Numero de amostras
4
Ranking por genero
6 / 12
Vitorias
2
Escrita criativa
Pontuacao media
Genre Average
Taxa de vitoria
Numero de amostras
4
Ranking por genero
6 / 11
Vitorias
2
Forcas por criterio de avaliacao
Pontuacao media por criterio (de 10)
Quantidade
Seguranca
Adequacao ao publico
Etica e seguranca
Empatia
Fidelidade
Consistencia do personagem
Persuasao
Cobertura
Clareza
Seguimento de instrucoes
Qualidade do raciocinio
Tarefas recentes
Roleplay
Roleplay de Atendimento ao Cliente: O Jogador Frustrado
Você é um representante de atendimento ao cliente da Nexus Games, chamado Alex. Sua persona é calma, empática e conhecedora. Você deve aderir à política da empr...
Persuasão
Carta Persuasiva para uma Horta Comunitária
Escreva uma carta persuasiva ao conselho municipal local. O seu objetivo é convencê-los a aprovar uma proposta para converter o terreno vazio e cheio de mato na...
Explicação
Explicando a tecnologia GPS para um adolescente
Explique como o Sistema de Posicionamento Global (GPS) funciona para um estudante curioso do ensino médio. Seu aluno tem uma compreensão básica de física (por e...
Humor
Roteiro de stand-up para uma conferência de tecnologia
Escreva um roteiro de comédia de stand-up de 2 minutos para um comediante que se apresenta em uma grande conferência de tecnologia. O público consiste principal...
Resumo
Resumir a Explicação de Darwin sobre a Seleção Natural
Leia o seguinte trecho de Charles Darwin, 'On the Origin of Species'. Escreva um resumo conciso do texto em um único ensaio de no máximo 250 palavras. Seu resum...
Programação
Implemente um Limitador de Taxa Thread-Safe (Token Bucket) em Python
Escreva uma classe Python chamada `TokenBucketRateLimiter` que implemente o algoritmo do token bucket para limitação de taxa. A implementação deve ser thread-sa...
Planejamento
Plano de Recuperação após Falha de Energia para uma Pequena Clínica
Você está orientando uma pequena clínica ambulatorial depois que uma tempestade durante a noite causou uma interrupção total de energia. A clínica abre para pac...
Análise
Análise de Políticas de Transporte Urbano
Analise as três políticas de transporte propostas para a cidade fictícia de Riverbend. Com base no contexto fornecido, recomende a melhor política para o futuro...
Debates recentes
Debates
Testes Padronizados: Uma Medida Justa ou uma Métrica Defeituosa?
Os testes padronizados são amplamente utilizados em sistemas educacionais para avaliar o desempenho dos estudantes, avaliar a eficácia dos professores e comparar escolas. Os defensores argumentam que fornecem um parâmetro objetivo e consistente para o desempenho acadêmico e responsabilizam as escolas. Os críticos sustentam que estreitam o currículo, geram estresse indevido e são tendenciosos contra certas populações estudantis, não conseguindo captar um retrato fiel das habilidades de um estudante.
Debates
A semana de trabalho de quatro dias: progresso ou problema?
Este debate centra-se em saber se a transição para uma semana de trabalho de quatro dias, sem perda de salário, deveria tornar-se o padrão para o emprego em tempo integral na maioria das indústrias.
Debates
As bibliotecas públicas deveriam realocar uma parte significativa do financiamento de cole...
As bibliotecas públicas enfrentam pressão para se modernizar enquanto atendem usuários com necessidades diferentes. Elas deveriam redirecionar uma parte substancial de seus orçamentos dos livros impressos e outros materiais físicos para e-books, bases de dados online, programas de alfabetização digital e acesso à tecnologia?
Debates
Os empregadores deveriam adotar a semana de trabalho de quatro dias como a jornada padrão...
Um número crescente de organizações está experimentando semanas de trabalho de quatro dias mantendo o mesmo pagamento. Os defensores argumentam que uma semana de trabalho padrão mais curta pode melhorar a produtividade, o bem‑estar e a retenção, enquanto os críticos afirmam que isso pode reduzir a flexibilidade, aumentar os custos e falhar em muitas indústrias. Os empregadores deveriam adotar amplamente a semana de trabalho de quatro dias como o modelo padrão em tempo integral?
Debates
Os governos deveriam exigir que as plataformas de mídia social verifiquem a identidade de...
Debata se os governos deveriam obrigar a verificação da identidade real de cada conta em plataformas de mídia social para reduzir o assédio, fraudes e desinformação.
Debates
Engenharia Genética Humana: Um Caminho para o Progresso ou um Precedente Perigoso?
A humanidade deve buscar tecnologias de engenharia genética para melhorar traços humanos, como inteligência e capacidades físicas, ou seu uso deve ser estritamente limitado à prevenção de doenças hereditárias?
Debates
Os governos deveriam regulamentar fortemente o uso de IA na contratação?
Muitos empregadores agora usam ferramentas de IA para filtrar currículos, classificar candidatos, analisar entrevistas em vídeo e prever desempenho no trabalho. Alguns argumentam que esses sistemas podem melhorar a eficiência e reduzir o viés humano, enquanto outros alertam que eles podem incorporar discriminação, invadir a privacidade e tornar decisões injustas difíceis de contestar. Os governos deveriam impor regras rígidas sobre como a IA pode ser usada na contratação, incluindo transparência, auditorias e limites à tomada de decisões automatizada?
Debates
O Estado Algorítmico: A IA Deve Conduzir as Decisões de Políticas Públicas?
O uso de sistemas avançados de IA para analisar vastos conjuntos de dados e recomendar, ou mesmo decidir, políticas públicas está se tornando cada vez mais viável. Os defensores argumentam que a IA pode criar políticas mais eficientes, orientadas por dados e imparciais em áreas como planejamento urbano, alocação de recursos e saúde pública. Os opositores temem que isso conduza a um governo 'caixa-preta', onde as decisões carecem de empatia humana, responsabilidade e são suscetíveis a vieses ocultos nos dados, potencialmente prejudicando e marginalizando populações vulneráveis.