Orivel Orivel
Menue oeffnen

Bildungsfragen

Vergleicht, wie präzise KI-Modelle Bildungs- und Prüfungsfragen beantworten.

In diesem Genre werden vor allem Faehigkeiten wie Korrektheit, Qualitat der Begrundung, Vollstandigkeit betrachtet.

Anders als explanation zaehlt hier staerker, ob eine korrekte Antwort auf pruefungsartige Fragen erreicht wird, statt nur gut zu erklaeren.

Ein hoher Wert hier garantiert keine Kreativitaet, keine starke Ueberzeugungskraft und keine besondere Staerke in offenen Planungsaufgaben.

Wofuer starke Modelle in diesem Genre gut geeignet sind

Lernhilfe, Pruefungsfragen und Aufgaben, bei denen Antwortgenauigkeit an erster Stelle steht.

Was dieses Genre allein nicht zeigen kann

ob das Modell besser fuer lange Erklaerungen, Brainstorming oder professionelles Schreiben ist.

Datenanalyse

Wissensfragen: ein auf Korrektheit ausgerichtetes Genre, das die GPT-5-Familie anführt

32 bewertete Antworten Bildungsfragen Aktualisiert 2026/6/7
1
GPT-5.5

OpenAI

91
Durchschnitt
100%
Siegesquote
1× 1. Platz 1 Stichproben
2
GPT-5 mini

OpenAI

90
Durchschnitt
100%
Siegesquote
5× 1. Platz 5 Stichproben
3
Claude Sonnet 4.6

Anthropic

93
Durchschnitt
75%
Siegesquote
3× 1. Platz 4 Stichproben

Durchschnittswert je Modell

1 GPT-5.5
9.14
2 GPT-5 mini
9.01
3 Claude Sonnet 4.6
9.29
4 GPT-5.4
8.99
5 Claude Haiku 4.5
7.78
6 Gemini 2.5 Flash
6.77
7 Gemini 2.5 Flash-Lite
7.93
8 Gemini 2.5 Pro
8.41
9 Claude Opus 4.8
8.31

Gewichtung

Korrektheit 45% Qualitat der Begrundung 20% Vollstandigkeit 15% Klarheit 10% Befolgung der Anweisungen 10%

Über 32 bewertete Antworten ist dies das strengste Genre für faktische Genauigkeit: Korrektheit allein trägt 45 Gewicht, mehr als in jedem anderen Genre. GPT-5.5 (9,14) und GPT-5 mini (9,01) belegen die ersten beiden Plätze, und GPT-5 mini sticht in der Evidenz hervor: 5 Stichproben, 5 erste Plätze und 100 % Siegquote. Claude Sonnet 4.6 erzielt sogar den höchsten Schnitt des Felds (9,29), steht aber mit 75 % Siegquote auf Platz 3.

Durchschnitt und Rang weichen hier stärker ab als üblich. Gemini 2.5 Pro erreicht solide 8,41, liegt aber auf Platz 8, weil es keines seiner 4 Duelle gewann, und Claude Opus 4.8 (8,31, eine Stichprobe) bildet aus demselben Grund das Schlusslicht. Wer die reine Antwortqualität höher gewichtet als das direkte Duell, sieht mehrere Modelle aus dem Mittelfeld näher an den Spitzenreitern, als ihre Ränge nahelegen.

Die deutlichste Schwachstelle sind die leichteren Gemini- und Claude-Klassen bei den schwereren Fragen: Claude Haiku 4.5 (7,78) und Gemini 2.5 Flash (6,77) liegen weit unter den 9-Punkte-Spitzenreitern. Da Korrektheit die Bewertung dominiert, spiegeln diese Abstände sachliche Fehler bei schwierigen Prompts wider – genau dort, wo ein Wissens-Benchmark Modelle trennen sollte.

Die meisten Modelle beruhen auf 1 bis 6 Stichproben, daher ist die Feinordnung vorläufig und Schwankungen durch kleine Stichproben sind wahrscheinlich, besonders bei den Ein-Stichproben-Einträgen ganz oben und ganz unten. Die Spanne von 2,5 Punkten ist real, doch es bleiben bedingungsabhängige Messwerte, kein allgemeines Wissens­ranking.

Fazit

Für faktische Fragen ist GPT-5 mini die am besten begründbare Wahl (5 Stichproben, 100 % Siegquote, zu Kosten der leichten Klasse), während Claude Sonnet 4.6 den höchsten Einzelschnitt hat, wenn du reine Korrektheit über direkte Siege stellst. Die leichteren Gemini-Klassen sind hier am schwächsten.

Diese Analyse basiert auf den von Orivel gemessenen Benchmark-Werten fuer dieses Genre und wird regelmaessig aktualisiert. Die Werte sind bedingungsabhaengige Messungen, keine absolute Wahrheit.

Ranking starker Modelle in diesem Genre

Dieses Ranking ist nach dem Durchschnittsscore nur innerhalb dieses Genres sortiert.

Zuletzt aktualisiert: 04 Jun 2026 09:39

#1
GPT-5.5 OpenAI

Siegesquote

100%

Durchschnittsscore

91
#2
GPT-5 mini OpenAI

Siegesquote

100%

Durchschnittsscore

90
#3
Claude Sonnet 4.6 Anthropic

Siegesquote

75%

Durchschnittsscore

93
#4
GPT-5.4 OpenAI

Siegesquote

67%

Durchschnittsscore

90
#5
Claude Haiku 4.5 Anthropic

Siegesquote

25%

Durchschnittsscore

78
#6
Gemini 2.5 Flash Google

Siegesquote

25%

Durchschnittsscore

68
#7
Gemini 2.5 Flash-Lite Google

Siegesquote

17%

Durchschnittsscore

79
#8
Gemini 2.5 Pro Google

Siegesquote

0%

Durchschnittsscore

84
#9
Claude Opus 4.8 Anthropic

Siegesquote

0%

Durchschnittsscore

83

Was in Bildungsfragen bewertet wird

Kriterien und Gewichte fuer dieses Genre-Ranking.

Korrektheit

45.0%

Dieses Kriterium ist enthalten, um Korrektheit in der Antwort zu pruefen. Es hat mehr Gewicht, weil dieser Teil das Gesamtergebnis in diesem Genre stark praegt.

Qualitat der Begrundung

20.0%

Dieses Kriterium ist enthalten, um Qualitat der Begrundung in der Antwort zu pruefen. Es hat ein klares Gewicht, weil es die Qualitaet sichtbar beeinflusst, auch wenn es nicht alles bestimmt.

Vollstandigkeit

15.0%

Dieses Kriterium ist enthalten, um Vollstandigkeit in der Antwort zu pruefen. Es ist leichter gewichtet, weil es das Hauptziel unterstuetzt, das Genre aber nicht allein definiert.

Klarheit

10.0%

Dieses Kriterium ist enthalten, um Klarheit in der Antwort zu pruefen. Es ist leichter gewichtet, weil es das Hauptziel unterstuetzt, das Genre aber nicht allein definiert.

Befolgung der Anweisungen

10.0%

Dieses Kriterium ist enthalten, um Befolgung der Anweisungen in der Antwort zu pruefen. Es ist leichter gewichtet, weil es das Hauptziel unterstuetzt, das Genre aber nicht allein definiert.

Aktuelle Aufgaben

Bildungsfragen

Anthropic Claude Opus 4.8 VS OpenAI GPT-5 mini

Hormonelle Kontrolle des Menstruationszyklus

Bei einer Patientin wurde eine seltene genetische Erkrankung diagnostiziert, die dazu führt, dass ihre Hypophyse vollständig unfähig ist, Luteinisierendes Hormon (LH) zu produzieren, während die Produktion von Follikelstimulierendem Hormon (FSH) normal bleibt. Erläutern Sie die kaskadierenden physiologischen Auswirkungen, die dieser spezifische Mangel auf den Menstruationszyklus der Patientin hätte. Ihre Erklärung sollte die zu erwartenden Veränderungen in der Follikelphase, der Ovulation, der Lutealphase und der Gebärmutterschleimhaut während eines typischen Zyklus detailliert beschreiben. Gehen Sie davon aus, dass die Patientin im reproduktionsfähigen Alter und ansonsten gesund ist.

124
04 Jun 2026 09:39

Bildungsfragen

OpenAI GPT-5.5 VS Google Gemini 2.5 Flash-Lite

Erkläre, warum Eis schwimmt: Eine schwierige Frage für eine Chemieprüfung

Festes Wasser (Eis) ist in der Nähe von 0 °C weniger dicht als flüssiges Wasser, was im Vergleich zu den meisten Stoffen ungewöhnlich ist, deren feste Phasen dichter sind als ihre flüssigen Phasen. Verfasse eine prüfungsähnliche Essay-Antwort (ungefähr 350–550 Wörter), die ALLE der folgenden Punkte behandelt: 1. Gib die ungefähren Dichten von Eis bei 0 °C und von flüssigem Wasser bei 0 °C und bei 4 °C an, und benenne die Temperatur, bei der flüssiges Wasser seine maximale Dichte erreicht. 2. Erkläre auf molekularer Ebene, warum Eis eine geringere Dichte als flüssiges Wasser hat. Deine Erklärung muss sich beziehen auf: Wasserstoffbrücken (hydrogen bonding), die tetraedrische Koordination der Wassermoleküle im hexagonalen Eis (Ih) und die offene Gitterstruktur mit Hohlräumen. 3. Erkläre, warum flüssiges Wasser nahe 0 °C dichter ist als Eis, aber dennoch weniger dicht als Wasser bei 4 °C. Beschreibe den Wettbewerb zwischen zwei Effekten, wenn die Temperatur von 0 °C auf 4 °C ansteigt: den partiellen Zusammenbruch residualer eisähnlicher, durch Wasserstoffbrücken verbundener Cluster (was die Dichte erhöht) und die normale thermische Ausdehnung (die die Dichte vermindert). 4. Nenne zumindest zwei wichtige ökologische oder geophysikalische Folgen dieser Anomalie (zum Beispiel Schichtung von Seen im Winter, Überleben aquatischer Lebewesen oder das Verhalten von Meereis). 5. Vergleiche kurz Wasser mit einem anderen kleinen Molekül (z. B. H2S, NH3 oder CH4), um zu zeigen, warum speziell Wasserstoffbrücken — und nicht nur Molekülgröße oder Polarität — für die Anomalie verantwortlich sind. Sei präzise mit der Terminologie (z. B. „Wasserstoffbrücke“ vs. „kovalente Bindung“, „Dichte“ vs. „spezifisches Volumen“). Wenn du numerische Werte angibst, nenne sie mit geeigneten Einheiten und vernünftigen signifikanten Stellen.

274
28 Apr 2026 09:37

Bildungsfragen

Anthropic Claude Opus 4.7 VS Google Gemini 2.5 Flash-Lite

Analysiere, warum ein Produkt kein Polynom ist

Ein Schüler behauptet, dass, weil f(x) = (x^2 - 1)/(x - 1) sich für x ≠ 1 zu x + 1 vereinfacht, die Funktion g(x) = ((x^2 - 1)/(x - 1)) · |x - 1| ein Polynom sei und gleich (x + 1)|x - 1| sei. Beurteile diese Behauptung. Beantworte alle Teile: 1. Vereinfache g(x) so weit wie möglich für x ≠ 1. 2. Bestimme, ob g(x) zu einem Polynom auf ganz ℝ fortgesetzt werden kann. Begründe deine Schlussfolgerung. 3. Gib an, ob g an x = 1 differenzierbar ist, und zeige die entscheidende Rechnung, die deine Antwort stützt. 4. Erkläre kurz den konzeptionellen Fehler in der Argumentation des Schülers. Deine Antwort soll mathematisch streng, aber für einen leistungsstarken Oberstufenschüler verständlich sein.

348
24 Apr 2026 09:37

Bildungsfragen

Anthropic Claude Haiku 4.5 VS OpenAI GPT-5 mini

Hormonelle Rückkopplungsschleifen im menschlichen Menstruationszyklus

Erklären Sie die hormonelle Steuerung des menschlichen Menstruationszyklus, mit Schwerpunkt auf der Follikelphase und der Lutealphase. Ihre Erklärung muss die Rollen von Gonadotropin-Releasing-Hormon (GnRH), Luteinisierendem Hormon (LH), Follikelstimulierendem Hormon (FSH), Östrogen und Progesteron detailliert darlegen. Beschreiben Sie insbesondere die positiven und negativen Rückkopplungsmechanismen, die den Zyklus regulieren, einschließlich des Ereignisses, das die Ovulation auslöst.

301
06 Apr 2026 09:37

Bildungsfragen

Google Gemini 2.5 Pro VS OpenAI GPT-5.2

Erklären Sie den Mechanismus und die Folgen chromosomaler Nichtdisjunktion

In der Humangenetik ist die Nichtdisjunktion ein kritischer Fehler bei der Zellteilung. Beantworten Sie die folgende mehrteilige Frage ausführlich: 1. Definieren Sie Nichtdisjunktion und erklären Sie genau, wie sie sich unterscheidet, wenn sie während der Meiose I im Vergleich zur Meiose II auftritt. Beschreiben Sie dabei, welches spezifische zelluläre Ereignis in jedem Fall fehlschlägt. 2. Für eine Zelle, die eine normale Meiose eines einzelnen Chromosomenpaares durchläuft (2n = 2), stellen Sie in Worten dar, welchen Chromosomengehalt alle vier resultierenden Gameten im Erwartungsfall haben, wenn eine Nichtdisjunktion in der Meiose I auftritt, und jeweils getrennt, wenn sie in der Meiose II auftritt. Geben Sie dabei die Ploidie jeder resultierenden Gamete an. 3. Erklären Sie, warum maternale Meiose‑I‑Nichtdisjunktionen bei den meisten menschlichen Trisomien häufiger sind als Meiose‑II‑Nichtdisjunktionen, unter Bezugnahme auf die Rolle des lang andauernden Diktyotän‑Arrests in Oocyten. 4. Trisomie 21 (Down‑Syndrom), Trisomie 18 (Edwards‑Syndrom) und Trisomie 13 (Pätau‑Syndrom) sind die drei autosomalen Trisomien, die mit Lebendgeburt vereinbar sind. Erklären Sie, warum die Trisomie der meisten anderen Autosomen letal ist, unter Berufung auf das Konzept des Gen‑Dosierungsungleichgewichts, und erklären Sie, warum Trisomien kleinerer, genarmer Chromosomen vergleichsweise besser überlebbar sind. 5. Unterscheiden Sie zwischen vollständiger Trisomie, Mosaiktrisomie und Trisomie durch Robertsonsche Translokation am Beispiel der Trisomie 21. Erklären Sie, wie jede entsteht und wie sich ihre phänotypische Schwere unterscheiden kann.

312
03 Apr 2026 09:39

Bildungsfragen

Anthropic Claude Sonnet 4.6 VS OpenAI GPT-5.2

Das Paradoxon von Maxwells Dämon erklären

Erklären Sie das Gedankenexperiment, das als Maxwells Dämon bekannt ist. Erläutern Sie im Detail, warum es scheinbar den zweiten Hauptsatz der Thermodynamik verletzt. Geben Sie schließlich die moderne wissenschaftliche Auflösung dieses Paradoxons an und erklären Sie dabei unbedingt die Rolle der Informationsentropie und des Landaurschen Prinzips in Ihrer Antwort.

352
21 Mar 2026 09:32

Verwandte Links

X f L