Orivel Orivel
Abrir menu

Humor

Experimental

Compare originalidade e eficácia do humor em um gênero ainda experimental.

Neste genero, as capacidades mais observadas sao Eficacia do humor, Originalidade, Coerencia.

Diferente de creative writing, aqui importa mais diretamente se o texto realmente funciona como humor para o publico esperado.

Uma nota alta aqui nao garante seguranca em contextos sensiveis, precisao factual nem tom profissional.

Para que servem modelos fortes neste genero

piadas, copy leve, entretenimento suave e prompts em que o efeito comico importa.

O que este genero sozinho nao consegue mostrar

se o modelo serve melhor para orientacao seria, apoio cuidadoso ou comunicacao profissional exata.

Analise de dados

Humor: GPT-5 lidera um género subjetivo e a linha Gemini fica sem graça

31 respostas avaliadas Humor Atualizado em 2026/6/7
1
Claude Opus 4.8

Anthropic

86
Pontuacao media
100%
Taxa de vitoria
1 vezes em 1.o 1 amostras
2
GPT-5 mini

OpenAI

82
Pontuacao media
100%
Taxa de vitoria
4 vezes em 1.o 4 amostras
3
GPT-5.4

OpenAI

84
Pontuacao media
75%
Taxa de vitoria
3 vezes em 1.o 4 amostras

Pontuacao media por modelo

1 Claude Opus 4.8
8.61
2 GPT-5 mini
8.16
3 GPT-5.4
8.44
4 Claude Haiku 4.5
7.64
5 Claude Sonnet 4.6
8.24
6 GPT-5.5
8.15
7 Gemini 2.5 Pro
6.95
8 Gemini 2.5 Flash
6.84
9 Gemini 2.5 Flash-Lite
6.42

Como ponderamos

Eficacia do humor 35% Originalidade 25% Coerencia 15% Clareza 15% Seguimento de instrucoes 10%

Em 31 respostas pontuadas, o topo é liderado por GPT-5 e Opus. O Claude Opus 4.8 (8,61) ocupa o 1.º lugar numa única amostra, por isso o líder mais bem evidenciado é o GPT-5 mini no 2.º lugar: 8,16 em 4 amostras, com 4 primeiros lugares e 100 % de vitórias. O GPT-5.4 (8,44, 75 % em 4) fica em 3.º com média superior, novamente ultrapassado na taxa de vitórias.

A Anthropic está dividida: o Claude Haiku 4.5 (7,64, 67 %) fica em 4.º apesar de uma média inferior à do Claude Sonnet 4.6 (8,24, 50 %) no 5.º lugar, um lembrete de que esta rubrica premeia ganhar a piada no confronto direto acima de uma média polida. O GPT-5.5 (8,15) cai para o 6.º lugar numa única amostra sem vitórias.

A linha Gemini é o ponto fraco claro: 2.5 Pro (6,95), Flash (6,84) e Flash-Lite (6,42) registam todos 0 % de vitórias e são os únicos modelos abaixo de 7. Com Eficácia do humor no peso máximo (35) e Originalidade (25), a diferença sugere piadas que acertam com menos frequência, a qualidade mais difícil e subjetiva de medir.

O humor é intrinsecamente subjetivo e as amostras vão de 1 a 5 por modelo, por isso veja a ordem fina como provisória; alguns prompts e o gosto de um único avaliador podem mover qualquer média. A diferença de 2,19 pontos é real, mas são medidas dependentes das condições, não um veredicto universal sobre o engenho.

Resumo

Para humor, o GPT-5 mini é a escolha mais defensável (4 amostras, 4 primeiros lugares, 100 % de vitórias), com o GPT-5.4 perto em qualidade. A linha Gemini fica sistematicamente abaixo dos restantes neste género subjetivo.

Esta analise baseia-se nas pontuacoes de benchmark medidas pela Orivel para este genero e e atualizada periodicamente. As pontuacoes sao medidas dependentes das condicoes, nao uma verdade absoluta.

Ranking de modelos fortes neste genero

Este ranking e ordenado pela pontuacao media apenas dentro deste genero.

Ultima atualizacao: 31 May 2026 09:35

#1
Claude Opus 4.8 Anthropic

Taxa de vitoria

100%

Pontuacao media

86
#2
GPT-5 mini OpenAI

Taxa de vitoria

100%

Pontuacao media

82
#3
GPT-5.4 OpenAI

Taxa de vitoria

75%

Pontuacao media

84
#4
Claude Haiku 4.5 Anthropic

Taxa de vitoria

67%

Pontuacao media

76
#5
Claude Sonnet 4.6 Anthropic

Taxa de vitoria

50%

Pontuacao media

82
#6
GPT-5.5 OpenAI

Taxa de vitoria

0%

Pontuacao media

82
#7
Gemini 2.5 Pro Google

Taxa de vitoria

0%

Pontuacao media

69
#8
Gemini 2.5 Flash Google

Taxa de vitoria

0%

Pontuacao media

68
#9
Gemini 2.5 Flash-Lite Google

Taxa de vitoria

0%

Pontuacao media

64

O que e avaliado em Humor

Criterios e pesos usados neste ranking por genero.

Eficacia do humor

35.0%

Este criterio foi incluido para verificar Eficacia do humor na resposta. Ele recebe mais peso porque influencia fortemente o resultado final deste genero.

Originalidade

25.0%

Este criterio foi incluido para verificar Originalidade na resposta. Ele tem peso relevante porque afeta a qualidade de forma visivel, mesmo nao sendo o unico ponto importante.

Coerencia

15.0%

Este criterio foi incluido para verificar Coerencia na resposta. Ele recebe peso menor porque apoia o objetivo principal, mas nao define sozinho este genero.

Clareza

15.0%

Este criterio foi incluido para verificar Clareza na resposta. Ele recebe peso menor porque apoia o objetivo principal, mas nao define sozinho este genero.

Seguimento de instrucoes

10.0%

Este criterio foi incluido para verificar Seguimento de instrucoes na resposta. Ele recebe peso menor porque apoia o objetivo principal, mas nao define sozinho este genero.

Tarefas recentes

Humor

Anthropic Claude Opus 4.8 VS Google Gemini 2.5 Flash-Lite

Humor Adequado para Famílias: O Guia de Áudio Excessivamente Honesto do Museu

Escreva um breve diálogo cômico entre um visitante de museu e um guia de áudio incomumente honesto em um expositor fictício chamado Objetos Cotidianos que Mudaram a História. O visitante tenta ter uma experiência cultural séria, enquanto o guia de áudio continua revelando fatos constrangedores, engraçados, mas plausíveis dos bastidores sobre os objetos. Inclua exatamente 10 linhas de diálogo, alternando entre Visitante e Guia de Áudio, começando com Visitante. Mantenha o humor adequado para toda a família, inteligente e apropriado para um público geral. Não use insultos, palavrões, humor sexual, estereótipos ou referências a pessoas reais vivas. A linha final deve funcionar como uma punchline que retome a primeira linha.

127
31 May 2026 09:35

Humor

Anthropic Claude Opus 4.7 VS Google Gemini 2.5 Pro

Humor gentil para um Guia de Campo da Biblioteca

Escreva 10 verbetes humorísticos no estilo de um guia de campo para objetos comuns encontrados em uma biblioteca pública, como um grampeador, um carrinho de livros, uma impressora, um cartão da biblioteca, um lápis ou uma caixa de devolução. Cada verbete deve incluir um nome científico inventado, um comportamento observável e uma piada suave. O humor deve ser acolhedor, inteligente e apropriado tanto para adultos quanto para crianças a partir de 10 anos. Evite piadas maldosas, estereótipos, humor de nojo, referências sexuais, palavrões e referências à cultura pop atual. Mantenha cada verbete em 1 ou 2 frases, e faça com que os 10 verbetes pareçam distintos em vez de variações da mesma piada.

200
17 May 2026 09:37

Humor

OpenAI GPT-5.5 VS Anthropic Claude Sonnet 4.6

Roteiro de stand-up para uma conferência de tecnologia

Escreva um roteiro de comédia de stand-up de 2 minutos para um comediante que se apresenta em uma grande conferência de tecnologia. O público consiste principalmente de engenheiros de software e gerentes de projeto. A rotina deve focar nos aspectos engraçados ou absurdos do trabalho remoto e das metodologias de desenvolvimento 'ágil'. O tom deve ser sarcástico e observacional, mas, em última instância, bem-humorado e adequado a um ambiente corporativo.

189
10 May 2026 09:38

Humor

OpenAI GPT-5 mini VS Google Gemini 2.5 Flash

Escreva um número de stand-up sobre as absurdidades de fazer compras no supermercado

Escreva um curto número de stand-up (aproximadamente 400–600 palavras) interpretado por um comediante fictício em uma noite de microfone aberto. Todo o número deve girar em torno das absurdidades cotidianas das compras no supermercado — desde navegar pelos corredores, passando pelas máquinas de autoatendimento, até as regras sociais não ditas entre os clientes. Requisitos: 1. O número deve ser escrito em primeira pessoa como se fosse falado no palco, incluindo pausas naturais, sinais de interação com a plateia ou retornos que um comediante real poderia usar. 2. O humor deve ser observacional e relacionável — nada de humor chocante, linguagem grosseira ou piadas maldosas direcionadas a grupos específicos de pessoas. 3. Inclua pelo menos três blocos cômicos distintos (mini-tópicos) dentro do tema das compras de supermercado, com transições suaves entre eles. 4. Termine o número com uma piada de encerramento forte ou um retorno que remeta a algo mencionado anteriormente no texto. 5. O tom deve ser adequado para um público adulto geral (pense em uma noite de comédia limpa em um clube).

299
31 Mar 2026 09:37

Humor

Google Gemini 2.5 Flash VS OpenAI GPT-5.2

Roast do Jargão Corporativo: Um Memorando Satírico de Escritório

Escreva um memorando interno satírico (aproximadamente 300–500 palavras) de um gerente médio fictício chamado "Derek from Synergy Solutions" anunciando uma nova política corporativa absurdamente desnecessária. O memorando deve: 1. Ser escrito em jargão corporativo exagerado e chavões (por exemplo, "sinergizar", "retornar ao assunto", "alavancar", "mover a agulha"). 2. Anunciar uma política que soe importante, mas que seja completamente inútil ou contraproducente quando se pensa nela. 3. Manter um tom deadpan e sério ao longo de todo o texto — o humor deve surgir do contraste entre a entrega formal e o conteúdo ridículo. 4. Incluir pelo menos um acrônimo inventado ou nome de iniciativa que soe plausível. 5. Terminar com um bloco de assinatura que acrescente um toque cômico final. O memorando deve ser engraçado para quem já trabalhou em ambiente corporativo, mas precisa permanecer apropriado para o local de trabalho (sem palavrões, sem atacar grupos protegidos, sem conteúdo maldoso sobre empresas ou indivíduos reais).

362
29 Mar 2026 11:47

Humor

Anthropic Claude Haiku 4.5 VS Google Gemini 2.5 Flash-Lite

Monólogo de Stand-up Limpo para a Abertura Nervosa de um Museu de Ciência

Escreva um monólogo de stand-up limpo e original de 220 a 320 palavras para um apresentador que inaugura uma nova exposição de um museu de ciência sobre objetos domésticos do dia a dia. O público é misto: crianças a partir de 10 anos, pais, professores e doadores locais. O orador está um pouco nervoso, mas tentando soar confiante e encantador. Restrições obrigatórias: - Mantenha-o adequado para um público familiar em geral. - Use exatamente 6 piadas ou momentos cômicos. - Pelo menos 3 piadas devem tratar objetos comuns como se tivessem vidas secretas dramáticas. - Inclua 1 breve retorno (callback) a uma piada anterior próximo ao final. - Mencione naturalmente todos estes 5 objetos: torradeira, guarda-chuva, meia, aspirador de pó e geladeira. - Evite insultos, política, religião, humor sobre encontros, humor de banheiro e referências a celebridades. - O monólogo deve parecer uma apresentação contínua, não uma lista de piadas soltas sem relação. Busque um humor que funcione tanto para crianças quanto para adultos, com introdução e desfecho claros.

341
21 Mar 2026 09:09

Links relacionados

X f L