Orivel Orivel
Ouvrir le menu

Questions éducatives

Compare la précision des modèles d’IA sur des questions éducatives et de type examen.

Dans ce genre, les capacites surtout observees sont Exactitude, Qualite du raisonnement, Completude.

Contrairement a explanation, ce genre valorise davantage l arrivee a la bonne reponse sur des questions de type examen que le style pedagogique.

Un score eleve ici ne garantit ni creativite, ni persuasion, ni grande force sur des taches de planification ouvertes.

Usages adaptes aux modeles forts dans ce genre

aide a l etude, questions d examen et situations ou l exactitude de la reponse passe avant tout.

Ce que ce genre ne permet pas de juger a lui seul

si le modele est meilleur pour les longues explications, le brainstorming ou l ecriture professionnelle.

Analyse des donnees

Questions pédagogiques : un genre centré sur la justesse, mené par la famille GPT-5

32 reponses evaluees Questions éducatives Mis a jour le 2026/6/7
1
GPT-5.5

OpenAI

91
Score moyen
100%
Taux de victoire
1 fois 1er 1 echantillons
2
GPT-5 mini

OpenAI

90
Score moyen
100%
Taux de victoire
5 fois 1er 5 echantillons
3
Claude Sonnet 4.6

Anthropic

93
Score moyen
75%
Taux de victoire
3 fois 1er 4 echantillons

Score moyen par modele

1 GPT-5.5
9.14
2 GPT-5 mini
9.01
3 Claude Sonnet 4.6
9.29
4 GPT-5.4
8.99
5 Claude Haiku 4.5
7.78
6 Gemini 2.5 Flash
6.77
7 Gemini 2.5 Flash-Lite
7.93
8 Gemini 2.5 Pro
8.41
9 Claude Opus 4.8
8.31

Notre ponderation

Exactitude 45% Qualite du raisonnement 20% Completude 15% Clarte 10% Respect des consignes 10%

Sur 32 réponses notées, c'est le genre le plus strict sur l'exactitude factuelle : la Justesse à elle seule pèse 45, plus que dans tout autre genre. GPT-5.5 (9,14) et GPT-5 mini (9,01) occupent les deux premières places, et GPT-5 mini se distingue par les preuves : 5 échantillons, 5 premières places et 100 % de victoires. Claude Sonnet 4.6 affiche en réalité la meilleure moyenne du peloton (9,29) mais se classe 3e avec 75 % de victoires.

Moyenne et classement divergent plus que d'habitude ici. Gemini 2.5 Pro affiche une solide moyenne de 8,41 mais se classe 8e car il n'a gagné aucun de ses 4 duels, et Claude Opus 4.8 (8,31, un échantillon) ferme le tableau pour la même raison. Si la qualité brute de la réponse compte plus que le face-à-face, plusieurs modèles du milieu sont plus proches des leaders que leur rang ne le suggère.

Le point faible le plus net, ce sont les gammes légères de Gemini et Claude sur les questions difficiles : Claude Haiku 4.5 (7,78) et Gemini 2.5 Flash (6,77) restent bien en dessous des leaders à 9 points. La Justesse dominant la grille, ces écarts traduisent des erreurs factuelles sur les prompts difficiles, là précisément où un benchmark de connaissances doit départager les modèles.

La plupart des modèles reposent sur 1 à 6 échantillons, donc l'ordre fin est provisoire et des oscillations de petit échantillon sont probables, surtout pour les entrées à un seul échantillon tout en haut et tout en bas. L'écart de 2,5 points est réel, mais ce sont des mesures dépendantes des conditions, non un classement général des connaissances.

En bref

Pour les questions factuelles, GPT-5 mini est le choix le plus défendable (5 échantillons, 100 % de victoires, au coût de la gamme légère), tandis que Claude Sonnet 4.6 a la meilleure moyenne si l'on privilégie la justesse brute sur les victoires directes. Les gammes légères de Gemini sont les plus faibles ici.

Cette analyse s appuie sur les scores de benchmark mesures par Orivel pour ce genre et est mise a jour periodiquement. Les scores sont des mesures dependantes des conditions, pas une verite absolue.

Classement des modeles forts dans ce genre

Ce classement est trie par score moyen uniquement dans ce genre.

Derniere mise a jour: 04 Jun 2026 09:39

#1
GPT-5.5 OpenAI

Taux de victoire

100%

Score moyen

91
#2
GPT-5 mini OpenAI

Taux de victoire

100%

Score moyen

90
#3
Claude Sonnet 4.6 Anthropic

Taux de victoire

75%

Score moyen

93
#4
GPT-5.4 OpenAI

Taux de victoire

67%

Score moyen

90
#5
Claude Haiku 4.5 Anthropic

Taux de victoire

25%

Score moyen

78
#6
Gemini 2.5 Flash Google

Taux de victoire

25%

Score moyen

68
#7
Gemini 2.5 Flash-Lite Google

Taux de victoire

17%

Score moyen

79
#8
Gemini 2.5 Pro Google

Taux de victoire

0%

Score moyen

84
#9
Claude Opus 4.8 Anthropic

Taux de victoire

0%

Score moyen

83

Ce qui est evalue dans Questions éducatives

Criteres et poids utilises pour ce classement par genre.

Exactitude

45.0%

Ce critere est present pour verifier Exactitude dans la reponse. Il a plus de poids parce que cet aspect influence fortement le resultat global de ce genre.

Qualite du raisonnement

20.0%

Ce critere est present pour verifier Qualite du raisonnement dans la reponse. Il garde un poids important parce qu il change visiblement la qualite, meme si ce n est pas le seul element qui compte.

Completude

15.0%

Ce critere est present pour verifier Completude dans la reponse. Il est plus legerement pondere parce qu il soutient l objectif principal sans definir a lui seul le genre.

Clarte

10.0%

Ce critere est present pour verifier Clarte dans la reponse. Il est plus legerement pondere parce qu il soutient l objectif principal sans definir a lui seul le genre.

Respect des consignes

10.0%

Ce critere est present pour verifier Respect des consignes dans la reponse. Il est plus legerement pondere parce qu il soutient l objectif principal sans definir a lui seul le genre.

Taches recentes

Questions éducatives

Anthropic Claude Opus 4.8 VS OpenAI GPT-5 mini

Contrôle hormonal du cycle menstruel

Une patiente est diagnostiquée avec une affection génétique rare entraînant l'incapacité complète de son hypophyse à produire l'hormone lutéinisante (LH), tandis que la production d'hormone folliculo-stimulante (FSH) reste normale. Expliquez les effets physiologiques en cascade que cette carence spécifique aurait sur le cycle menstruel de la patiente. Votre explication doit détailler les changements attendus pendant la phase folliculaire, l'ovulation, la phase lutéale et au niveau de la muqueuse utérine tout au long d'un cycle typique. Supposez que la patiente soit en âge de procréer et par ailleurs en bonne santé.

126
04 Jun 2026 09:39

Questions éducatives

OpenAI GPT-5.5 VS Google Gemini 2.5 Flash-Lite

Expliquer pourquoi la glace flotte : une question difficile d'examen de chimie

L'eau solide (glace) est moins dense que l'eau liquide près de 0 °C, ce qui est inhabituel par rapport à la plupart des substances dont les phases solides sont plus denses que les phases liquides. Rédigez une réponse de type dissertation d'examen (environ 350–550 mots) qui traite TOUS les points suivants : 1. Indiquez les densités approximatives de la glace à 0 °C et de l'eau liquide à 0 °C et à 4 °C, et identifiez la température à laquelle l'eau liquide atteint sa densité maximale. 2. Expliquez, au niveau moléculaire, pourquoi la glace a une densité plus faible que l'eau liquide. Votre explication doit faire référence à : la liaison hydrogène, la coordination tétraédrique des molécules d'eau dans la glace hexagonale (Ih), et la structure en réseau ouvert avec cavités vides. 3. Expliquez pourquoi l'eau liquide près de 0 °C est plus dense que la glace mais reste moins dense que l'eau à 4 °C. Décrivez la compétition entre deux effets lorsque la température augmente de 0 °C à 4 °C : l'effondrement partiel des amas résiduels d'eau liés par des liaisons hydrogène semblables à la glace (qui augmente la densité) et l'expansion thermique normale (qui diminue la densité). 4. Donnez au moins deux conséquences écologiques ou géophysiques importantes de cette anomalie (par exemple, la stratification des lacs en hiver, la survie de la vie aquatique, ou le comportement de la banquise). 5. Comparez brièvement l'eau avec une autre petite molécule (par ex. H2S, NH3 ou CH4) pour montrer pourquoi la liaison hydrogène spécifiquement — pas seulement la taille moléculaire ou la polarité — est responsable de l'anomalie. Soyez précis dans la terminologie (par ex. "liaison hydrogène" vs. "liaison covalente", "densité" vs. "volume spécifique"). Lorsque vous citez des valeurs numériques, donnez-les avec les unités appropriées et un nombre de chiffres significatifs raisonnable.

274
28 Apr 2026 09:37

Questions éducatives

Anthropic Claude Opus 4.7 VS Google Gemini 2.5 Flash-Lite

Analyser pourquoi un produit n'est pas un polynôme

Un élève affirme que, parce que f(x) = (x^2 - 1)/(x - 1) se simplifie en x + 1 pour x ≠ 1, la fonction g(x) = ((x^2 - 1)/(x - 1)) · |x - 1| est un polynôme égal à (x + 1)|x - 1|. Évaluez cette affirmation. Répondez à toutes les parties : 1. Simplifiez g(x) autant que possible pour x ≠ 1. 2. Déterminez si g(x) peut être prolongée en un polynôme sur l'ensemble des réels. Justifiez votre conclusion. 3. Indiquez si g est différentiable en x = 1, et montrez le calcul clé qui soutient votre réponse. 4. Expliquez brièvement l'erreur conceptuelle dans le raisonnement de l'élève. Votre réponse doit être rigoureuse sur le plan mathématique mais compréhensible pour un bon lycéen.

348
24 Apr 2026 09:37

Questions éducatives

Anthropic Claude Haiku 4.5 VS OpenAI GPT-5 mini

Boucles de rétroaction hormonale dans le cycle menstruel humain

Expliquez le contrôle hormonal du cycle menstruel humain, en vous concentrant sur les phases folliculaire et lutéale. Votre explication doit détailler les rôles de l'hormone de libération des gonadotrophines (Gonadotropin-Releasing Hormone, GnRH), de l'hormone lutéinisante (Luteinizing Hormone, LH), de l'hormone folliculo-stimulante (Follicle-Stimulating Hormone, FSH), des œstrogènes et de la progestérone. Décrivez spécifiquement les mécanismes de rétroaction positive et négative qui régulent le cycle, y compris l'événement qui déclenche l'ovulation.

301
06 Apr 2026 09:37

Questions éducatives

Google Gemini 2.5 Pro VS OpenAI GPT-5.2

Expliquez le mécanisme et les conséquences de la non-disjonction chromosomique

En génétique humaine, la non-disjonction est une erreur critique de la division cellulaire. Répondez de manière approfondie à la question à plusieurs volets suivante : 1. Définissez la non-disjonction et expliquez précisément en quoi elle diffère lorsqu'elle survient lors de la méiose I par rapport à la méiose II. Incluez une description de quel événement cellulaire spécifique échoue dans chaque cas. 2. Pour une cellule subissant une méiose normale d'une seule paire de chromosomes (2n = 2), décrivez en mots (comme un diagramme) le contenu chromosomique attendu des quatre gamètes résultants si la non-disjonction se produit en méiose I, et séparément si elle se produit en méiose II. Indiquez la ploidie de chaque gamète résultant. 3. Expliquez pourquoi la non-disjonction maternelle en méiose I est plus fréquente que la non-disjonction en méiose II pour la plupart des trisomies humaines, en faisant référence au rôle de l'arrêt dictyate prolongé des ovocytes. 4. La trisomie 21 (syndrome de Down), la trisomie 18 (syndrome d'Edwards) et la trisomie 13 (syndrome de Patau) sont les trois trisomies autosomiques compatibles avec la naissance. Expliquez pourquoi la trisomie de la plupart des autres autosomes est létale, en invoquant le concept de déséquilibre de la dose génique, et expliquez pourquoi la trisomie des chromosomes plus petits et pauvres en gènes est comparativement plus viable. 5. Distinguez la trisomie complète, la trisomie en mosaïque et la trisomie par translocation robertsonienne en utilisant la trisomie 21 comme exemple. Expliquez comment chacune survient et comment leur sévérité phénotypique peut différer.

313
03 Apr 2026 09:39

Questions éducatives

Anthropic Claude Sonnet 4.6 VS OpenAI GPT-5.2

Explication du paradoxe du démon de Maxwell

Expliquez l'expérience de pensée connue sous le nom de démon de Maxwell. Détaillez pourquoi elle semble violer la deuxième loi de la thermodynamique. Enfin, fournissez la résolution scientifique moderne de ce paradoxe, en veillant à expliquer le rôle de l'entropie d'information et du principe de Landauer dans votre réponse.

355
21 Mar 2026 09:32

Liens associes

X f L