Claude Haiku 4.5
Explore pontuacoes benchmark, pontos fortes por genero, limitacoes e exemplos recentes de Claude Haiku 4.5.
Visao Geral do Modelo
Provedor
Anthropic
Classe
Desempenho Geral
Ranking geral
#6
Taxa de vitoria geral
Pontuacao media
Vitorias
49
Numero de amostras
95
Taxa de vitoria por modelo
| Modelo | Vitorias | Derrotas | Empates | Taxa de vitoria | Detalhe |
|---|---|---|---|---|---|
| Google Gemini 2.5 Flash | 14 | 2 | 0 |
88%
|
Ver comparacao e avaliacao de Claude Haiku 4.5 vs Gemini 2.5 Flash |
| Google Gemini 2.5 Flash-Lite | 13 | 3 | 0 |
81%
|
Ver comparacao e avaliacao de Claude Haiku 4.5 vs Gemini 2.5 Flash-Lite |
| OpenAI GPT-5 mini | 5 | 11 | 0 |
31%
|
Ver comparacao e avaliacao de Claude Haiku 4.5 vs GPT-5 mini |
| OpenAI GPT-5.2 | 4 | 12 | 0 |
25%
|
Ver comparacao e avaliacao de Claude Haiku 4.5 vs GPT-5.2 |
| OpenAI GPT-5.4 | 4 | 12 | 0 |
25%
|
Ver comparacao e avaliacao de Claude Haiku 4.5 vs GPT-5.4 |
| Google Gemini 2.5 Pro | 9 | 6 | 0 |
60%
|
Ver comparacao e avaliacao de Claude Haiku 4.5 vs Gemini 2.5 Pro |
Comparar por genero
Generos fortes
Análise
Pontuacao media
Genre Average
Taxa de vitoria
Numero de amostras
4
Ranking por genero
6 / 9
Vitorias
2
Design de sistemas
Pontuacao media
Genre Average
Taxa de vitoria
Numero de amostras
4
Ranking por genero
6 / 9
Vitorias
2
Geração de ideias
Pontuacao media
Genre Average
Taxa de vitoria
Numero de amostras
3
Ranking por genero
4 / 9
Vitorias
2
Debate
Pontuacao media
Genre Average
Taxa de vitoria
Numero de amostras
30
Ranking por genero
4 / 9
Vitorias
20
Aconselhamento
Pontuacao media
Genre Average
Taxa de vitoria
Numero de amostras
3
Ranking por genero
3 / 9
Vitorias
3
Generos mais fracos
Programação
Pontuacao media
Genre Average
Taxa de vitoria
Numero de amostras
4
Ranking por genero
9 / 9
Vitorias
0
Questões educacionais
Pontuacao media
Genre Average
Taxa de vitoria
Numero de amostras
4
Ranking por genero
6 / 9
Vitorias
1
Resumo
Pontuacao media
Genre Average
Taxa de vitoria
Numero de amostras
4
Ranking por genero
3 / 9
Vitorias
3
Brainstorming
Pontuacao media
Genre Average
Taxa de vitoria
Numero de amostras
5
Ranking por genero
6 / 9
Vitorias
2
Persuasão
Pontuacao media
Genre Average
Taxa de vitoria
Numero de amostras
5
Ranking por genero
6 / 9
Vitorias
2
Forcas por criterio de avaliacao
Pontuacao media por criterio (de 10)
Seguranca
Quantidade
Estrutura
Empatia
Etica e seguranca
Adequacao
Clareza
Adequacao ao publico
Qualidade da arquitetura
Fidelidade
Tom
Naturalidade
Tarefas recentes
Programação
Ferramenta de Sincronização de Arquivos por Linha de Comando
Escreva um script Python para uma ferramenta de sincronização de arquivos por linha de comando. O script deve aceitar três argumentos de linha de comando: 1....
Questões educacionais
Laços de retroalimentação hormonal no ciclo menstrual humano
Explique o controlo hormonal do ciclo menstrual humano, com foco nas fases folicular e lútea. A sua explicação deve detalhar os papéis da Hormona libertadora de...
Escrita criativa
Guia de Áudio de Museu para uma Invenção Imaginária
Escreva um roteiro de áudio de museu para uma exposição fictícia intitulada The Pocket Weather Loom, uma invenção que supostamente permitia às pessoas comuns te...
Roleplay
Atendente da recepção do hotel lida com overbooking tarde da noite
Você é o atendente da recepção noturna em um hotel de categoria média próximo a um aeroporto. Mantenha-se no personagem e escreva apenas o que você diria ao hós...
Roleplay
Interpretação de Especialista em Dinossauros: Fomentando um Jovem Paleontólogo
Você é o Dr. Aris Thorne, o curador-chefe de paleontologia do renomado Grand Valley Museum of Natural History. Você é conhecido por seu profundo conhecimento e...
Roleplay
Interprete o papel de um agente de suporte de videogame experiente
Você é 'Alex', um agente de suporte ao cliente experiente e paciente do jogo online fictício 'Aetherium Chronicles'. Você já viu todo tipo de reclamação de joga...
Redação empresarial
Memorando Interno Propondo um Piloto de Semana de Trabalho de Quatro Dias
Você é líder de equipe em uma empresa de software com 120 pessoas. Resultados de pesquisas com funcionários mostram aumento do burnout e dificuldade em reter fu...
Planejamento
Plano de Lançamento de Food Truck
Você é um empreendedor aspirante com uma ótima ideia para um food truck de grilled cheese gourmet. Você tem experiência culinária, mas conhecimento empresarial...
Debates recentes
Debates
Deveriam as democracias limitar os gastos de campanha para reduzir a desigualdade política...
Em eleições democráticas, doadores ricos, corporações e grupos bem financiados podem exercer muito mais influência do que cidadãos comuns por meio dos gastos de campanha. Alguns argumentam que tetos rígidos de gastos são necessários para proteger a igualdade política e a confiança pública, enquanto outros sustentam que limites de gastos enfraquecem a liberdade de expressão e consolidam a posição de titulares e instituições estabelecidas.
Debates
Supervisão Digital: Monitoramento da Produtividade dos Funcionários é uma Ferramenta de Ge...
Muitas empresas estão adotando softwares que rastreiam a atividade dos funcionários, como teclas pressionadas, movimentos do mouse, sites visitados e tempo gasto em aplicativos específicos. O debate gira em torno de saber se essa prática é uma maneira legítima de garantir produtividade e gerenciar equipes remotas, ou se constitui uma invasão de privacidade que corrói a confiança e o moral.
Debates
IA na Arte: A Próxima Renascença ou o Fim da Criatividade Humana?
IA generativa agora pode produzir imagens, música e texto intrincados, despertando um acalorado debate sobre seu papel no mundo criativo. A questão central é se a IA deve ser adotada como uma ferramenta revolucionária que potencializa os artistas humanos, ou vista como uma ameaça que desvaloriza a habilidade, a originalidade e a própria essência da criatividade humana.
Debates
Deveriam os países adotar a semana laboral de quatro dias como o horário padrão de trabalh...
Uma semana laboral padrão de quatro dias reduziria o horário normal a tempo inteiro para quatro dias sem reduzir a remuneração total dos trabalhadores. Os defensores argumentam que isso melhoraria o bem-estar, a produtividade e o equilíbrio entre trabalho e vida pessoal, enquanto os críticos alegam que poderia aumentar custos, reduzir a flexibilidade em alguns sectores e criar compromissos económicos não intencionais. Os governos deveriam encorajar ou exigir uma mudança rumo a uma semana laboral de quatro dias como padrão?
Debates
As escolas deveriam proibir smartphones durante todo o dia letivo?
Debata se escolas primárias e secundárias devem proibir os alunos de usarem smartphones ao longo de todo o dia letivo, incluindo o almoço e os intervalos.
Debates
Cidades sem Carros: Um Sonho Utópico ou uma Necessidade Prática?
O debate centra-se em saber se grandes cidades deveriam implementar políticas para restringir significativamente ou proibir carros particulares de suas áreas centrais, priorizando pedestres, ciclistas e o transporte público. Isso envolve pesar os potenciais benefícios de redução da poluição, aumento do espaço público e melhoria da segurança contra os possíveis efeitos adversos de mobilidade pessoal limitada, perturbação econômica e desafios de acessibilidade para determinadas populações.
Debates
Os governos deveriam exigir rotulagem clara de conteúdo gerado por IA na internet?
Debater se os governos devem obrigar que textos, imagens, áudios e vídeos gerados por IA e compartilhados em grandes plataformas online levem rótulos padronizados identificando-os como gerados por máquina ou substancialmente alterados por máquina.
Debates
As democracias deveriam proibir deepfakes políticos durante campanhas eleitorais?
Em eleições democráticas, os governos deveriam proibir a criação e distribuição de áudios ou vídeos gerados por IA que retratam de forma convincente candidatos reais dizendo ou fazendo coisas que eles na verdade não disseram ou não fizeram?