Orivel Orivel
Abrir menu

Claude Opus 4.8

Explore pontuações de benchmark, pontos fortes por género, limitações e exemplos recentes de Claude Opus 4.8.

Visao Geral do Modelo

Provedor: Anthropic · claude-opus-4-8 NOVO

Lancamento

2026-05-28

Contexto

1M tokens

Entrada

$5.00 / 1M

Saida

$25.00 / 1M

O Claude Opus 4.8, lançado em 28 de maio de 2026, foi o flagship da Anthropic até o Claude Fable 5 assumir o topo em 9 de junho de 2026. Na Orivel continua sendo um modelo de primeira linha para raciocínio complexo, programação agente de longo alcance e trabalho de conhecimento de alta autonomia, pela metade do preço do Fable 5.

Os principais ganhos sobre o Opus 4.7 são um julgamento mais apurado, mais honestidade sobre o próprio progresso e a capacidade de trabalhar de forma independente por mais tempo. É cerca de quatro vezes menos propenso que o antecessor a deixar passar falhas no próprio código e lidera em engenharia de software agente, com 69,2% no SWE-Bench Pro à frente de GPT-5.5 e Gemini 3.1 Pro.

Mantém a janela de contexto de 1M tokens e até 128k tokens de saída na Messages API. O preço não muda em relação ao Opus 4.7 ($5 entrada / $25 saída por 1M tokens), com corte de conhecimento em janeiro de 2026. As novas superfícies adicionam um controle `effort` (padrão high) e um preview de pesquisa de Dynamic Workflows para tarefas agentes grandes e paralelizadas.

Mudancas

  • Lançado em 28 de maio de 2026 como sucessor do Claude Opus 4.7 (cerca de seis semanas depois)
  • Julgamento mais apurado, mais honestidade sobre o progresso e trabalho independente mais longo
  • ~4x menos propenso que o Opus 4.7 a deixar passar falhas no próprio código
  • SWE-Bench Pro 69,2% — à frente de GPT-5.5 e Gemini 3.1 Pro em programação agente
  • Ganhos em raciocínio multidisciplinar, uso agente do computador e análise financeira agente
  • Janela de contexto de 1M tokens; até 128k tokens de saída na Messages API
  • Parâmetro `effort` (padrão high) para ajustar o quanto o modelo se esforça por resposta
  • Preview de Dynamic Workflows para tarefas com subagentes em paralelo; fast mode a 2,5x de velocidade
  • Preço idêntico ao Opus 4.7: $5 entrada / $25 saída por 1M tokens
  • Adaptive thinking; disponível no Claude API, Amazon Bedrock, Vertex AI e Microsoft Foundry
  • Corte de conhecimento e dados de treinamento: janeiro de 2026
Anuncio oficial

Desempenho Geral

Ranking geral

#1

Taxa de vitoria geral

89%

Pontuacao media

85

Vitorias

16

Numero de amostras

18

Taxa de vitoria por modelo

Comparar por genero

Forcas por criterio de avaliacao

Pontuacao media por criterio (de 10)

Quantidade

97 3 amostras

Fidelidade

93 3 amostras

Seguranca

92 3 amostras

Seguimento de instrucoes

92 6 amostras

Utilidade

91 3 amostras

Estrutura

89 6 amostras

Cobertura

89 3 amostras

Etica e seguranca

89 3 amostras

Empatia

89 3 amostras

Adequacao

89 6 amostras

Capacidade de sintese

88 3 amostras

Coerencia

88 3 amostras

Tarefas recentes

Geração de ideias

OpenAI GPT-5.4 VS Anthropic Claude Opus 4.8

Soluções Criativas para o Desperdício Alimentar em Supermercados

Uma grande rede nacional de supermercados quer reduzir significativamente a quantidade de alimentos comestíveis que descarta. Eles já doam o excedente a institu...

22
13 Jun 2026 09:37

Questões educacionais

OpenAI GPT-5 mini VS Anthropic Claude Opus 4.8

Controle Hormonal do Ciclo Menstrual

Um paciente foi diagnosticado com uma condição genética rara que resulta na incapacidade completa da sua glândula pituitária de produzir Hormónio Luteinizante (...

124
04 Jun 2026 09:39

Brainstorming

Google Gemini 2.5 Flash-Lite VS Anthropic Claude Opus 4.8

Chuva de ideias: Programas de Baixo Custo para Adolescentes na Biblioteca

Uma biblioteca pública de porte médio quer aumentar a presença presencial de adolescentes de 13 a 18 anos durante um período de verão de 10 semanas. Faça uma ch...

131
03 Jun 2026 10:19

Resumo

OpenAI GPT-5 mini VS Anthropic Claude Opus 4.8

Resuma a visão geral do Telescópio Espacial James Webb

Leia o artigo a seguir sobre o Telescópio Espacial James Webb (JWST) e escreva um resumo conciso. Seu resumo deve ser um único parágrafo coerente de 150 a 200 p...

124
02 Jun 2026 09:39

Aconselhamento

Google Gemini 2.5 Flash VS Anthropic Claude Opus 4.8

Dizer Não a uma Viagem Cara com um Amigo Próximo

Um usuário pede um conselho pessoal cotidiano: “Meu amigo próximo está planejando uma viagem de aniversário de quatro dias que custaria mais do que eu posso con...

121
01 Jun 2026 09:37

Humor

Google Gemini 2.5 Flash-Lite VS Anthropic Claude Opus 4.8

Humor Adequado para Famílias: O Guia de Áudio Excessivamente Honesto do Museu

Escreva um breve diálogo cômico entre um visitante de museu e um guia de áudio incomumente honesto em um expositor fictício chamado Objetos Cotidianos que Mudar...

121
31 May 2026 09:35

Design de sistemas

OpenAI GPT-5.4 VS Anthropic Claude Opus 4.8

Projetar um Sistema de Quadro Branco Colaborativo em Tempo Real

Você foi encarregado de projetar uma arquitetura de sistema de alto nível para uma aplicação de quadro branco colaborativo em tempo real. **Requisitos Princip...

144
30 May 2026 09:41

Redação empresarial

Google Gemini 2.5 Flash-Lite VS Anthropic Claude Opus 4.8

E-mail ao Cliente sobre um Lançamento de Produto Atrasado

Escreva um e-mail direcionado a clientes assinado pelo Head of Product de uma empresa SaaS B2B anunciando um atraso no lançamento de uma funcionalidade planejad...

133
29 May 2026 09:37

Debates recentes

Debates

Anthropic Claude Opus 4.8 VS Google Gemini 2.5 Pro

Os governos deveriam obrigar grandes empregadores a adotar semanas de trabalho de quatro d...

Os governos deveriam exigir que grandes empregadores adotem uma semana de trabalho padrão de quatro dias e 32 horas sem redução de salário, ou a duração da semana de trabalho deveria permanecer principalmente uma questão a ser negociada entre empregadores e empregados?

17
13 Jun 2026 14:37

Debates

Anthropic Claude Opus 4.8 VS Google Gemini 2.5 Flash

As escolas devem substituir as notas em letras por avaliações narrativas?

As escolas primárias e secundárias devem abandonar as notas tradicionais em letras ou percentuais e, em vez disso, usar comentários escritos, portfólios e reuniões com os alunos para avaliar a aprendizagem?

136
04 Jun 2026 14:37

Debates

Anthropic Claude Opus 4.8 VS OpenAI GPT-5.5

Testes padronizados nas escolas: uma medida justa de mérito ou uma barreira ultrapassada à...

Testes padronizados, como o SAT, o ACT e vários exames a nível estadual, têm sido durante muito tempo um pilar do sistema educativo, utilizados para avaliação de alunos, avaliação de escolas e admissão em universidades. Os defensores argumentam que proporcionam um referencial objetivo para medir o rendimento académico em populações diversas. No entanto, os críticos afirmam que esses testes são culturalmente tendenciosos, favorecem estudantes de origens privilegiadas e não conseguem captar as verdadeiras capacidades ou o potencial de um aluno, levando a pedidos de sua abolição em favor de métodos de avaliação mais holísticos. O debate centra-se em saber se os testes padronizados são uma ferramenta essencial para responsabilização e meritocracia ou um sistema discriminatório que perpetua a desigualdade.

138
03 Jun 2026 14:38

Debates

Anthropic Claude Opus 4.8 VS Google Gemini 2.5 Pro

O transporte público deveria ser gratuito para todos os passageiros?

Muitas cidades enfrentam congestionamento, poluição, financiamento do transporte e acesso desigual à mobilidade. Uma proposta é eliminar as tarifas em ônibus, bondes e metrôs para todos, financiando as operações por meio de impostos ou outras receitas públicas. As cidades deveriam tornar o transporte público gratuito para todos os passageiros, ou deveriam manter as tarifas e concentrar os subsídios naqueles que mais precisam?

143
02 Jun 2026 14:37

Debates

Anthropic Claude Opus 4.8 VS OpenAI GPT-5.4

O Papel dos Testes Padronizados na Educação

Os testes padronizados são amplamente utilizados para medir a aptidão dos alunos, o desempenho acadêmico e o rendimento das escolas. Os defensores argumentam que eles fornecem um referencial objetivo para responsabilização e comparação, enquanto os críticos sustentam que são injustos, estressantes e promovem um currículo estreito. Este debate centra‑se em saber se os testes padronizados devem permanecer como pedra angular do sistema educacional.

145
01 Jun 2026 14:38

Debates

Anthropic Claude Opus 4.8 VS OpenAI GPT-5.5

A semana de trabalho de quatro dias: uma revolução no equilíbrio entre vida profissional e...

O conceito de uma semana de trabalho padrão de quatro dias, sem redução salarial, está ganhando adesão em todo o mundo como uma forma de melhorar o bem-estar e a produtividade dos funcionários. O debate questiona se esse modelo é uma evolução sustentável e benéfica do ambiente de trabalho moderno ou um ideal impraticável que cria mais problemas do que resolve para as empresas e para a economia.

145
31 May 2026 14:38

Debates

Anthropic Claude Opus 4.8 VS Google Gemini 2.5 Pro

As cidades deveriam substituir a maior parte do estacionamento na rua por ciclovias proteg...

Muitas cidades têm espaço limitado junto ao meio-fio que atualmente é usado para estacionamento de carros particulares. Os governos locais deveriam remover a maior parte do estacionamento nas ruas em corredores principais e redesenhar esse espaço para faixas cicláveis protegidas, calçadas mais largas, árvores e assentos públicos?

161
30 May 2026 14:37

Debates

Anthropic Claude Opus 4.8 VS Google Gemini 2.5 Flash

As cidades deveriam proibir carros particulares nas áreas centrais?

Muitas cidades estão a considerar restringir ou proibir carros particulares em distritos centrais densos para reduzir o congestionamento, a poluição e as mortes no trânsito. Os governos municipais devem avançar para centros urbanos sem carros, ou devem preservar o amplo acesso de veículos particulares?

152
29 May 2026 14:37

Links relacionados

X f L