Orivel Orivel
Abrir menu

Questões educacionais

Compare o desempenho dos modelos de IA em questões educacionais e de prova.

Neste genero, as capacidades mais observadas sao Correcao, Qualidade do raciocinio, Completude.

Diferente de explanation, aqui pesa mais chegar a resposta correta em questoes de prova do que adaptar o estilo de ensino.

Uma nota alta aqui nao garante criatividade, capacidade de persuadir nem forca em tarefas abertas de planejamento.

Para que servem modelos fortes neste genero

estudo, questoes de prova e situacoes em que a exatidao da resposta vem primeiro.

O que este genero sozinho nao consegue mostrar

se o modelo e melhor para explicacoes longas, brainstorming ou escrita profissional.

Analise de dados

Perguntas educativas: um género centrado na correção liderado pela família GPT-5

32 respostas avaliadas Questões educacionais Atualizado em 2026/6/7
1
GPT-5.5

OpenAI

91
Pontuacao media
100%
Taxa de vitoria
1 vezes em 1.o 1 amostras
2
GPT-5 mini

OpenAI

90
Pontuacao media
100%
Taxa de vitoria
5 vezes em 1.o 5 amostras
3
Claude Sonnet 4.6

Anthropic

93
Pontuacao media
75%
Taxa de vitoria
3 vezes em 1.o 4 amostras

Pontuacao media por modelo

1 GPT-5.5
9.14
2 GPT-5 mini
9.01
3 Claude Sonnet 4.6
9.29
4 GPT-5.4
8.99
5 Claude Haiku 4.5
7.78
6 Gemini 2.5 Flash
6.77
7 Gemini 2.5 Flash-Lite
7.93
8 Gemini 2.5 Pro
8.41
9 Claude Opus 4.8
8.31

Como ponderamos

Correcao 45% Qualidade do raciocinio 20% Completude 15% Clareza 10% Seguimento de instrucoes 10%

Em 32 respostas pontuadas, este é o género mais rigoroso em precisão factual: a Correção sozinha pesa 45, mais do que em qualquer outro género. O GPT-5.5 (9,14) e o GPT-5 mini (9,01) ocupam os dois primeiros lugares, e o GPT-5 mini destaca-se na evidência: 5 amostras, 5 primeiros lugares e 100 % de vitórias. O Claude Sonnet 4.6 tem, na verdade, a média mais alta do campo (9,29) mas fica no 3.º lugar com 75 % de vitórias.

A média e a ordem divergem mais do que o habitual aqui. O Gemini 2.5 Pro tem média sólida de 8,41 mas fica em 8.º porque não venceu nenhum dos seus 4 confrontos, e o Claude Opus 4.8 (8,31, uma amostra) fecha a tabela pela mesma razão. Se valoriza a qualidade bruta da resposta mais do que o confronto direto, vários modelos do meio estão mais perto dos líderes do que a posição sugere.

O ponto fraco mais claro são as gamas leves de Gemini e Claude nas perguntas difíceis: Claude Haiku 4.5 (7,78) e Gemini 2.5 Flash (6,77) ficam bem abaixo dos líderes de 9 pontos. Como a Correção domina a rubrica, essas diferenças refletem erros factuais em prompts difíceis, exatamente onde um benchmark de conhecimento deve separar modelos.

A maioria dos modelos assenta em 1 a 6 amostras, por isso a ordem fina é provisória e são prováveis oscilações de amostra pequena, sobretudo nas entradas de uma só amostra no topo e na base. A diferença de 2,5 pontos é real, mas continuam a ser medidas dependentes das condições, não um ranking geral de conhecimento.

Resumo

Para perguntas factuais, o GPT-5 mini é a escolha mais defensável (5 amostras, 100 % de vitórias, a custo de gama leve), enquanto o Claude Sonnet 4.6 tem a média mais alta se valorizar a correção bruta acima das vitórias diretas. As gamas leves de Gemini são as mais fracas aqui.

Esta analise baseia-se nas pontuacoes de benchmark medidas pela Orivel para este genero e e atualizada periodicamente. As pontuacoes sao medidas dependentes das condicoes, nao uma verdade absoluta.

Ranking de modelos fortes neste genero

Este ranking e ordenado pela pontuacao media apenas dentro deste genero.

Ultima atualizacao: 04 Jun 2026 09:39

#1
GPT-5.5 OpenAI

Taxa de vitoria

100%

Pontuacao media

91
#2
GPT-5 mini OpenAI

Taxa de vitoria

100%

Pontuacao media

90
#3
Claude Sonnet 4.6 Anthropic

Taxa de vitoria

75%

Pontuacao media

93
#4
GPT-5.4 OpenAI

Taxa de vitoria

67%

Pontuacao media

90
#5
Claude Haiku 4.5 Anthropic

Taxa de vitoria

25%

Pontuacao media

78
#6
Gemini 2.5 Flash Google

Taxa de vitoria

25%

Pontuacao media

68
#7
Gemini 2.5 Flash-Lite Google

Taxa de vitoria

17%

Pontuacao media

79
#8
Gemini 2.5 Pro Google

Taxa de vitoria

0%

Pontuacao media

84
#9
Claude Opus 4.8 Anthropic

Taxa de vitoria

0%

Pontuacao media

83

O que e avaliado em Questões educacionais

Criterios e pesos usados neste ranking por genero.

Correcao

45.0%

Este criterio foi incluido para verificar Correcao na resposta. Ele recebe mais peso porque influencia fortemente o resultado final deste genero.

Qualidade do raciocinio

20.0%

Este criterio foi incluido para verificar Qualidade do raciocinio na resposta. Ele tem peso relevante porque afeta a qualidade de forma visivel, mesmo nao sendo o unico ponto importante.

Completude

15.0%

Este criterio foi incluido para verificar Completude na resposta. Ele recebe peso menor porque apoia o objetivo principal, mas nao define sozinho este genero.

Clareza

10.0%

Este criterio foi incluido para verificar Clareza na resposta. Ele recebe peso menor porque apoia o objetivo principal, mas nao define sozinho este genero.

Seguimento de instrucoes

10.0%

Este criterio foi incluido para verificar Seguimento de instrucoes na resposta. Ele recebe peso menor porque apoia o objetivo principal, mas nao define sozinho este genero.

Tarefas recentes

Questões educacionais

Anthropic Claude Opus 4.8 VS OpenAI GPT-5 mini

Controle Hormonal do Ciclo Menstrual

Um paciente foi diagnosticado com uma condição genética rara que resulta na incapacidade completa da sua glândula pituitária de produzir Hormónio Luteinizante (LH), enquanto a produção de Hormónio Folículo-Estimulante (FSH) permanece normal. Explique os efeitos fisiológicos em cascata que essa deficiência específica teria sobre o ciclo menstrual do paciente. A sua explicação deve detalhar as alterações esperadas na fase folicular, na ovulação, na fase lútea e no revestimento uterino ao longo de um ciclo típico. Assuma que o paciente está em idade reprodutiva e é saudável de outra forma.

126
04 Jun 2026 09:39

Questões educacionais

OpenAI GPT-5.5 VS Google Gemini 2.5 Flash-Lite

Explique Por que o Gelo Flutua: Uma Difícil Questão de Exame de Química

Água sólida (gelo) é menos densa que a água líquida perto de 0 °C, o que é incomum em comparação com a maioria das substâncias cujas fases sólidas são mais densas que as fases líquidas. Escreva uma resposta em estilo de exame (aproximadamente 350–550 palavras) que aborde TODOS os seguintes pontos: 1. Indique as densidades aproximadas do gelo a 0 °C e da água líquida a 0 °C e a 4 °C, e identifique a temperatura na qual a água líquida atinge a sua densidade máxima. 2. Explique, a nível molecular, por que o gelo tem menor densidade que a água líquida. A sua explicação deve referir: ligações de hidrogénio, a coordenação tetraédrica das moléculas de água no gelo hexagonal (Ih), e a estrutura reticulada aberta com cavidades vazias. 3. Explique por que a água líquida perto de 0 °C é mais densa que o gelo mas ainda menos densa que a água a 4 °C. Descreva a competição entre dois efeitos conforme a temperatura sobe de 0 °C para 4 °C: o colapso parcial de aglomerados residuais semelhantes a gelo ligados por ligações de hidrogénio (que aumenta a densidade) e a expansão térmica normal (que diminui a densidade). 4. Dê pelo menos duas consequências ecológicas ou geofísicas importantes desta anomalia (por exemplo, estratificação de lagos no inverno, sobrevivência da vida aquática, ou o comportamento do gelo marinho). 5. Compare brevemente a água com outra molécula pequena (por exemplo, H2S, NH3 ou CH4) para mostrar por que as ligações de hidrogénio especificamente — não apenas o tamanho molecular ou a polaridade — são responsáveis pela anomalia. Seja preciso com a terminologia (por exemplo, "ligação de hidrogénio" vs. "ligação covalente", "densidade" vs. "volume específico"). Onde citar valores numéricos, dê-os com unidades apropriadas e algarismos significativos razoáveis.

274
28 Apr 2026 09:37

Questões educacionais

Anthropic Claude Opus 4.7 VS Google Gemini 2.5 Flash-Lite

Analise por que um produto não é um polinômio

Um estudante afirma que, porque f(x) = (x^2 - 1)/(x - 1) se simplifica para x + 1 quando x ≠ 1, a função g(x) = ((x^2 - 1)/(x - 1)) · |x - 1| é um polinômio igual a (x + 1)|x - 1|. Avalie essa alegação. Responda todas as partes: 1. Simplifique g(x) tanto quanto possível para x ≠ 1. 2. Determine se g(x) pode ser estendida a um polinômio para todos os números reais. Justifique sua conclusão. 3. Indique se g é diferenciável em x = 1, e mostre o cálculo chave que sustenta sua resposta. 4. Explique brevemente o erro conceitual no raciocínio do estudante. Sua resposta deve ser matematicamente rigorosa, mas compreensível para um bom estudante do ensino médio.

348
24 Apr 2026 09:37

Questões educacionais

Anthropic Claude Haiku 4.5 VS OpenAI GPT-5 mini

Laços de retroalimentação hormonal no ciclo menstrual humano

Explique o controlo hormonal do ciclo menstrual humano, com foco nas fases folicular e lútea. A sua explicação deve detalhar os papéis da Hormona libertadora de gonadotrofinas (GnRH), da Hormona luteinizante (LH), da Hormona folículo‑estimulante (FSH), do estrogénio e da progesterona. Especificamente, descreva os mecanismos de feedback positivo e negativo que regulam o ciclo, incluindo o evento que desencadeia a ovulação.

301
06 Apr 2026 09:37

Questões educacionais

Google Gemini 2.5 Pro VS OpenAI GPT-5.2

Explique o Mecanismo e as Consequências da Não-disjunção Cromossômica

Em genética humana, a não-disjunção é um erro crítico na divisão celular. Responda à seguinte questão multipartes de forma completa: 1. Defina não-disjunção e explique precisamente como ela difere quando ocorre durante a meiose I versus a meiose II. Inclua uma descrição de qual evento celular específico falha em cada caso. 2. Para uma célula que passa por meiose normal com um único par cromossômico (2n = 2), esquematize em palavras o conteúdo cromossômico esperado dos quatro gâmetas resultantes se a não-disjunção ocorrer na meiose I, e separadamente se ocorrer na meiose II. Declare a ploidia de cada gâmeta resultante. 3. Explique por que a não-disjunção materna na meiose I é mais comum do que a não-disjunção na meiose II para a maioria das trissomias humanas, referenciando o papel do prolongado bloqueio dictoático nos oócitos. 4. Trissomia 21 (síndrome de Down), Trissomia 18 (síndrome de Edwards) e Trissomia 13 (síndrome de Patau) são as três trissomias autosômicas compatíveis com o nascimento vivo. Explique por que a trissomia da maioria dos outros autossomos é letal, invocando o conceito de desequilíbrio da dosagem gênica, e explique por que a trissomia de cromossomos menores e pobres em genes é comparativamente mais compatível com a sobrevivência. 5. Distinga entre trisomia completa, trisomia em mosaico e trisomia por translocação Robertsoniana usando a Trissomia 21 como seu exemplo. Explique como cada uma surge e como a severidade fenotípica pode diferir.

313
03 Apr 2026 09:39

Questões educacionais

Anthropic Claude Sonnet 4.6 VS OpenAI GPT-5.2

Explicando o Paradoxo do Demônio de Maxwell

Explique o experimento mental conhecido como Demônio de Maxwell. Detalhe por que ele aparenta violar a Segunda Lei da Termodinâmica. Finalmente, apresente a resolução científica moderna para esse paradoxo, certificando-se de explicar o papel da entropia da informação e do princípio de Landauer em sua resposta.

354
21 Mar 2026 09:32

Links relacionados

X f L