Questions éducatives
Compare la précision des modèles d’IA sur des questions éducatives et de type examen.
Dans ce genre, les capacites surtout observees sont Exactitude, Qualite du raisonnement, Completude.
Contrairement a explanation, ce genre valorise davantage l arrivee a la bonne reponse sur des questions de type examen que le style pedagogique.
Un score eleve ici ne garantit ni creativite, ni persuasion, ni grande force sur des taches de planification ouvertes.
Usages adaptes aux modeles forts dans ce genre
aide a l etude, questions d examen et situations ou l exactitude de la reponse passe avant tout.
Ce que ce genre ne permet pas de juger a lui seul
si le modele est meilleur pour les longues explications, le brainstorming ou l ecriture professionnelle.
Questions pédagogiques : un genre centré sur la justesse, mené par la famille GPT-5
OpenAI
OpenAI
Anthropic
Score moyen par modele
Notre ponderation
Sur 32 réponses notées, c'est le genre le plus strict sur l'exactitude factuelle : la Justesse à elle seule pèse 45, plus que dans tout autre genre. GPT-5.5 (9,14) et GPT-5 mini (9,01) occupent les deux premières places, et GPT-5 mini se distingue par les preuves : 5 échantillons, 5 premières places et 100 % de victoires. Claude Sonnet 4.6 affiche en réalité la meilleure moyenne du peloton (9,29) mais se classe 3e avec 75 % de victoires.
Moyenne et classement divergent plus que d'habitude ici. Gemini 2.5 Pro affiche une solide moyenne de 8,41 mais se classe 8e car il n'a gagné aucun de ses 4 duels, et Claude Opus 4.8 (8,31, un échantillon) ferme le tableau pour la même raison. Si la qualité brute de la réponse compte plus que le face-à-face, plusieurs modèles du milieu sont plus proches des leaders que leur rang ne le suggère.
Le point faible le plus net, ce sont les gammes légères de Gemini et Claude sur les questions difficiles : Claude Haiku 4.5 (7,78) et Gemini 2.5 Flash (6,77) restent bien en dessous des leaders à 9 points. La Justesse dominant la grille, ces écarts traduisent des erreurs factuelles sur les prompts difficiles, là précisément où un benchmark de connaissances doit départager les modèles.
La plupart des modèles reposent sur 1 à 6 échantillons, donc l'ordre fin est provisoire et des oscillations de petit échantillon sont probables, surtout pour les entrées à un seul échantillon tout en haut et tout en bas. L'écart de 2,5 points est réel, mais ce sont des mesures dépendantes des conditions, non un classement général des connaissances.
En bref
Pour les questions factuelles, GPT-5 mini est le choix le plus défendable (5 échantillons, 100 % de victoires, au coût de la gamme légère), tandis que Claude Sonnet 4.6 a la meilleure moyenne si l'on privilégie la justesse brute sur les victoires directes. Les gammes légères de Gemini sont les plus faibles ici.
Cette analyse s appuie sur les scores de benchmark mesures par Orivel pour ce genre et est mise a jour periodiquement. Les scores sont des mesures dependantes des conditions, pas une verite absolue.
Classement des modeles forts dans ce genre
Ce classement est trie par score moyen uniquement dans ce genre.
Derniere mise a jour: 04 Jun 2026 09:39
Taux de victoire
Score moyen
Taux de victoire
Score moyen
Taux de victoire
Score moyen
Taux de victoire
Score moyen
Taux de victoire
Score moyen
Taux de victoire
Score moyen
Taux de victoire
Score moyen
Taux de victoire
Score moyen
Taux de victoire
Score moyen
| Modeles classes |
|
|
Detail | ||||
|---|---|---|---|---|---|---|---|
| #1 | GPT-5.5 | OpenAI |
100%
|
91
|
1 | 1 | Voir l evaluation et le score de GPT-5.5 |
| #2 | GPT-5 mini | OpenAI |
100%
|
90
|
5 | 5 | Voir l evaluation et le score de GPT-5 mini |
| #3 | Claude Sonnet 4.6 | Anthropic |
75%
|
93
|
3 | 4 | Voir l evaluation et le score de Claude Sonnet 4.6 |
| #4 | GPT-5.4 | OpenAI |
67%
|
90
|
2 | 3 | Voir l evaluation et le score de GPT-5.4 |
| #5 | Claude Haiku 4.5 | Anthropic |
25%
|
78
|
1 | 4 | Voir l evaluation et le score de Claude Haiku 4.5 |
| #6 | Gemini 2.5 Flash |
25%
|
68
|
1 | 4 | Voir l evaluation et le score de Gemini 2.5 Flash | |
| #7 | Gemini 2.5 Flash-Lite |
17%
|
79
|
1 | 6 | Voir l evaluation et le score de Gemini 2.5 Flash-Lite | |
| #8 | Gemini 2.5 Pro |
0%
|
84
|
0 | 4 | Voir l evaluation et le score de Gemini 2.5 Pro | |
| #9 | Claude Opus 4.8 NOUVEAU | Anthropic |
0%
|
83
|
0 | 1 | Voir l evaluation et le score de Claude Opus 4.8 |
Ce qui est evalue dans Questions éducatives
Criteres et poids utilises pour ce classement par genre.
Exactitude
45.0%
Ce critere est present pour verifier Exactitude dans la reponse. Il a plus de poids parce que cet aspect influence fortement le resultat global de ce genre.
Qualite du raisonnement
20.0%
Ce critere est present pour verifier Qualite du raisonnement dans la reponse. Il garde un poids important parce qu il change visiblement la qualite, meme si ce n est pas le seul element qui compte.
Completude
15.0%
Ce critere est present pour verifier Completude dans la reponse. Il est plus legerement pondere parce qu il soutient l objectif principal sans definir a lui seul le genre.
Clarte
10.0%
Ce critere est present pour verifier Clarte dans la reponse. Il est plus legerement pondere parce qu il soutient l objectif principal sans definir a lui seul le genre.
Respect des consignes
10.0%
Ce critere est present pour verifier Respect des consignes dans la reponse. Il est plus legerement pondere parce qu il soutient l objectif principal sans definir a lui seul le genre.
Taches recentes
Questions éducatives
Contrôle hormonal du cycle menstruel
Une patiente est diagnostiquée avec une affection génétique rare entraînant l'incapacité complète de son hypophyse à produire l'hormone lutéinisante (LH), tandis que la production d'hormone folliculo-stimulante (FSH) reste normale. Expliquez les effets physiologiques en cascade que cette carence spécifique aurait sur le cycle menstruel de la patiente. Votre explication doit détailler les changements attendus pendant la phase folliculaire, l'ovulation, la phase lutéale et au niveau de la muqueuse utérine tout au long d'un cycle typique. Supposez que la patiente soit en âge de procréer et par ailleurs en bonne santé.
Questions éducatives
Expliquer pourquoi la glace flotte : une question difficile d'examen de chimie
L'eau solide (glace) est moins dense que l'eau liquide près de 0 °C, ce qui est inhabituel par rapport à la plupart des substances dont les phases solides sont plus denses que les phases liquides. Rédigez une réponse de type dissertation d'examen (environ 350–550 mots) qui traite TOUS les points suivants : 1. Indiquez les densités approximatives de la glace à 0 °C et de l'eau liquide à 0 °C et à 4 °C, et identifiez la température à laquelle l'eau liquide atteint sa densité maximale. 2. Expliquez, au niveau moléculaire, pourquoi la glace a une densité plus faible que l'eau liquide. Votre explication doit faire référence à : la liaison hydrogène, la coordination tétraédrique des molécules d'eau dans la glace hexagonale (Ih), et la structure en réseau ouvert avec cavités vides. 3. Expliquez pourquoi l'eau liquide près de 0 °C est plus dense que la glace mais reste moins dense que l'eau à 4 °C. Décrivez la compétition entre deux effets lorsque la température augmente de 0 °C à 4 °C : l'effondrement partiel des amas résiduels d'eau liés par des liaisons hydrogène semblables à la glace (qui augmente la densité) et l'expansion thermique normale (qui diminue la densité). 4. Donnez au moins deux conséquences écologiques ou géophysiques importantes de cette anomalie (par exemple, la stratification des lacs en hiver, la survie de la vie aquatique, ou le comportement de la banquise). 5. Comparez brièvement l'eau avec une autre petite molécule (par ex. H2S, NH3 ou CH4) pour montrer pourquoi la liaison hydrogène spécifiquement — pas seulement la taille moléculaire ou la polarité — est responsable de l'anomalie. Soyez précis dans la terminologie (par ex. "liaison hydrogène" vs. "liaison covalente", "densité" vs. "volume spécifique"). Lorsque vous citez des valeurs numériques, donnez-les avec les unités appropriées et un nombre de chiffres significatifs raisonnable.
Questions éducatives
Analyser pourquoi un produit n'est pas un polynôme
Un élève affirme que, parce que f(x) = (x^2 - 1)/(x - 1) se simplifie en x + 1 pour x ≠ 1, la fonction g(x) = ((x^2 - 1)/(x - 1)) · |x - 1| est un polynôme égal à (x + 1)|x - 1|. Évaluez cette affirmation. Répondez à toutes les parties : 1. Simplifiez g(x) autant que possible pour x ≠ 1. 2. Déterminez si g(x) peut être prolongée en un polynôme sur l'ensemble des réels. Justifiez votre conclusion. 3. Indiquez si g est différentiable en x = 1, et montrez le calcul clé qui soutient votre réponse. 4. Expliquez brièvement l'erreur conceptuelle dans le raisonnement de l'élève. Votre réponse doit être rigoureuse sur le plan mathématique mais compréhensible pour un bon lycéen.
Questions éducatives
Boucles de rétroaction hormonale dans le cycle menstruel humain
Expliquez le contrôle hormonal du cycle menstruel humain, en vous concentrant sur les phases folliculaire et lutéale. Votre explication doit détailler les rôles de l'hormone de libération des gonadotrophines (Gonadotropin-Releasing Hormone, GnRH), de l'hormone lutéinisante (Luteinizing Hormone, LH), de l'hormone folliculo-stimulante (Follicle-Stimulating Hormone, FSH), des œstrogènes et de la progestérone. Décrivez spécifiquement les mécanismes de rétroaction positive et négative qui régulent le cycle, y compris l'événement qui déclenche l'ovulation.
Questions éducatives
Expliquez le mécanisme et les conséquences de la non-disjonction chromosomique
En génétique humaine, la non-disjonction est une erreur critique de la division cellulaire. Répondez de manière approfondie à la question à plusieurs volets suivante : 1. Définissez la non-disjonction et expliquez précisément en quoi elle diffère lorsqu'elle survient lors de la méiose I par rapport à la méiose II. Incluez une description de quel événement cellulaire spécifique échoue dans chaque cas. 2. Pour une cellule subissant une méiose normale d'une seule paire de chromosomes (2n = 2), décrivez en mots (comme un diagramme) le contenu chromosomique attendu des quatre gamètes résultants si la non-disjonction se produit en méiose I, et séparément si elle se produit en méiose II. Indiquez la ploidie de chaque gamète résultant. 3. Expliquez pourquoi la non-disjonction maternelle en méiose I est plus fréquente que la non-disjonction en méiose II pour la plupart des trisomies humaines, en faisant référence au rôle de l'arrêt dictyate prolongé des ovocytes. 4. La trisomie 21 (syndrome de Down), la trisomie 18 (syndrome d'Edwards) et la trisomie 13 (syndrome de Patau) sont les trois trisomies autosomiques compatibles avec la naissance. Expliquez pourquoi la trisomie de la plupart des autres autosomes est létale, en invoquant le concept de déséquilibre de la dose génique, et expliquez pourquoi la trisomie des chromosomes plus petits et pauvres en gènes est comparativement plus viable. 5. Distinguez la trisomie complète, la trisomie en mosaïque et la trisomie par translocation robertsonienne en utilisant la trisomie 21 comme exemple. Expliquez comment chacune survient et comment leur sévérité phénotypique peut différer.
Questions éducatives
Explication du paradoxe du démon de Maxwell
Expliquez l'expérience de pensée connue sous le nom de démon de Maxwell. Détaillez pourquoi elle semble violer la deuxième loi de la thermodynamique. Enfin, fournissez la résolution scientifique moderne de ce paradoxe, en veillant à expliquer le rôle de l'entropie d'information et du principe de Landauer dans votre réponse.