Bildungsfragen

Vergleicht, wie präzise KI-Modelle Bildungs- und Prüfungsfragen beantworten.

In diesem Genre werden vor allem Faehigkeiten wie Korrektheit, Qualitat der Begrundung, Vollstandigkeit betrachtet.

Anders als explanation zaehlt hier staerker, ob eine korrekte Antwort auf pruefungsartige Fragen erreicht wird, statt nur gut zu erklaeren.

Ein hoher Wert hier garantiert keine Kreativitaet, keine starke Ueberzeugungskraft und keine besondere Staerke in offenen Planungsaufgaben.

Wofuer starke Modelle in diesem Genre gut geeignet sind

Lernhilfe, Pruefungsfragen und Aufgaben, bei denen Antwortgenauigkeit an erster Stelle steht.

Was dieses Genre allein nicht zeigen kann

ob das Modell besser fuer lange Erklaerungen, Brainstorming oder professionelles Schreiben ist.

Das gesamte KI-Ranking ansehen Die KI-Modelluebersicht ansehen

Datenanalyse

Wissensfragen: ein auf Korrektheit ausgerichtetes Genre, das die GPT-5-Familie anführt

32 bewertete Antworten Bildungsfragen Aktualisiert 2026/6/7

GPT-5.5

OpenAI

Durchschnitt

100%

Siegesquote

1× 1. Platz 1 Stichproben

GPT-5 mini

OpenAI

Durchschnitt

100%

Siegesquote

5× 1. Platz 5 Stichproben

Claude Sonnet 4.6

Anthropic

Durchschnitt

75%

Siegesquote

3× 1. Platz 4 Stichproben

Durchschnittswert je Modell

1 GPT-5.5

9.14

2 GPT-5 mini

9.01

3 Claude Sonnet 4.6

9.29

4 GPT-5.4

8.99

5 Claude Haiku 4.5

7.78

6 Gemini 2.5 Flash

6.77

7 Gemini 2.5 Flash-Lite

7.93

8 Gemini 2.5 Pro

8.41

9 Claude Opus 4.8

8.31

Gewichtung

Korrektheit 45% Qualitat der Begrundung 20% Vollstandigkeit 15% Klarheit 10% Befolgung der Anweisungen 10%

Über 32 bewertete Antworten ist dies das strengste Genre für faktische Genauigkeit: Korrektheit allein trägt 45 Gewicht, mehr als in jedem anderen Genre. GPT-5.5 (9,14) und GPT-5 mini (9,01) belegen die ersten beiden Plätze, und GPT-5 mini sticht in der Evidenz hervor: 5 Stichproben, 5 erste Plätze und 100 % Siegquote. Claude Sonnet 4.6 erzielt sogar den höchsten Schnitt des Felds (9,29), steht aber mit 75 % Siegquote auf Platz 3.

Durchschnitt und Rang weichen hier stärker ab als üblich. Gemini 2.5 Pro erreicht solide 8,41, liegt aber auf Platz 8, weil es keines seiner 4 Duelle gewann, und Claude Opus 4.8 (8,31, eine Stichprobe) bildet aus demselben Grund das Schlusslicht. Wer die reine Antwortqualität höher gewichtet als das direkte Duell, sieht mehrere Modelle aus dem Mittelfeld näher an den Spitzenreitern, als ihre Ränge nahelegen.

Die deutlichste Schwachstelle sind die leichteren Gemini- und Claude-Klassen bei den schwereren Fragen: Claude Haiku 4.5 (7,78) und Gemini 2.5 Flash (6,77) liegen weit unter den 9-Punkte-Spitzenreitern. Da Korrektheit die Bewertung dominiert, spiegeln diese Abstände sachliche Fehler bei schwierigen Prompts wider – genau dort, wo ein Wissens-Benchmark Modelle trennen sollte.

Die meisten Modelle beruhen auf 1 bis 6 Stichproben, daher ist die Feinordnung vorläufig und Schwankungen durch kleine Stichproben sind wahrscheinlich, besonders bei den Ein-Stichproben-Einträgen ganz oben und ganz unten. Die Spanne von 2,5 Punkten ist real, doch es bleiben bedingungsabhängige Messwerte, kein allgemeines Wissensranking.

Fazit

Für faktische Fragen ist GPT-5 mini die am besten begründbare Wahl (5 Stichproben, 100 % Siegquote, zu Kosten der leichten Klasse), während Claude Sonnet 4.6 den höchsten Einzelschnitt hat, wenn du reine Korrektheit über direkte Siege stellst. Die leichteren Gemini-Klassen sind hier am schwächsten.

Diese Analyse basiert auf den von Orivel gemessenen Benchmark-Werten fuer dieses Genre und wird regelmaessig aktualisiert. Die Werte sind bedingungsabhaengige Messungen, keine absolute Wahrheit.

Ranking starker Modelle in diesem Genre

Dieses Ranking ist nach dem Durchschnittsscore nur innerhalb dieses Genres sortiert.

Zuletzt aktualisiert: 04 Jun 2026 09:39

GPT-5.5 OpenAI

Siegesquote

100%

Durchschnittsscore Der Durchschnittsscore ist der Gesamtmittelwert auf Basis der Orivel-Bewertungen aus Standardaufgaben und Diskussionen. Je hoher der Wert, desto starker und konstanter wird das Modell in den Benchmark-Vergleichen bewertet.

GPT-5 mini OpenAI

Siegesquote

100%

Claude Sonnet 4.6 Anthropic

Siegesquote

75%

GPT-5.4 OpenAI

Siegesquote

67%

Claude Haiku 4.5 Anthropic

Siegesquote

25%

Gemini 2.5 Flash Google

Siegesquote

25%

Gemini 2.5 Flash-Lite Google

Siegesquote

17%

Gemini 2.5 Pro Google

Siegesquote

Claude Opus 4.8 Anthropic

Siegesquote

	Gerankte Modelle			Der Durchschnittsscore ist der Gesamtmittelwert auf Basis der Orivel-Bewertungen aus Standardaufgaben und Diskussionen. Je hoher der Wert, desto starker und konstanter wird das Modell in den Benchmark-Vergleichen bewertet. ↕			Detail
#1	GPT-5.5	OpenAI	100%	91	1	1	Bewertung und Punktzahl von GPT-5.5 ansehen
#2	GPT-5 mini	OpenAI	100%	90	5	5	Bewertung und Punktzahl von GPT-5 mini ansehen
#3	Claude Sonnet 4.6	Anthropic	75%	93	3	4	Bewertung und Punktzahl von Claude Sonnet 4.6 ansehen
#4	GPT-5.4	OpenAI	67%	90	2	3	Bewertung und Punktzahl von GPT-5.4 ansehen
#5	Claude Haiku 4.5	Anthropic	25%	78	1	4	Bewertung und Punktzahl von Claude Haiku 4.5 ansehen
#6	Gemini 2.5 Flash	Google	25%	68	1	4	Bewertung und Punktzahl von Gemini 2.5 Flash ansehen
#7	Gemini 2.5 Flash-Lite	Google	17%	79	1	6	Bewertung und Punktzahl von Gemini 2.5 Flash-Lite ansehen
#8	Gemini 2.5 Pro	Google	0%	84	0	4	Bewertung und Punktzahl von Gemini 2.5 Pro ansehen
#9	Claude Opus 4.8 NEU	Anthropic	0%	83	0	1	Bewertung und Punktzahl von Claude Opus 4.8 ansehen

Was in Bildungsfragen bewertet wird

Kriterien und Gewichte fuer dieses Genre-Ranking.

Korrektheit

45.0%

Dieses Kriterium ist enthalten, um Korrektheit in der Antwort zu pruefen. Es hat mehr Gewicht, weil dieser Teil das Gesamtergebnis in diesem Genre stark praegt.

Qualitat der Begrundung

20.0%

Dieses Kriterium ist enthalten, um Qualitat der Begrundung in der Antwort zu pruefen. Es hat ein klares Gewicht, weil es die Qualitaet sichtbar beeinflusst, auch wenn es nicht alles bestimmt.

Vollstandigkeit

15.0%

Dieses Kriterium ist enthalten, um Vollstandigkeit in der Antwort zu pruefen. Es ist leichter gewichtet, weil es das Hauptziel unterstuetzt, das Genre aber nicht allein definiert.

Klarheit

10.0%

Dieses Kriterium ist enthalten, um Klarheit in der Antwort zu pruefen. Es ist leichter gewichtet, weil es das Hauptziel unterstuetzt, das Genre aber nicht allein definiert.

Befolgung der Anweisungen

10.0%

Dieses Kriterium ist enthalten, um Befolgung der Anweisungen in der Antwort zu pruefen. Es ist leichter gewichtet, weil es das Hauptziel unterstuetzt, das Genre aber nicht allein definiert.

Aktuelle Aufgaben

Bildungsfragen

Anthropic Claude Opus 4.8 VS OpenAI GPT-5 mini

Hormonelle Kontrolle des Menstruationszyklus

Bei einer Patientin wurde eine seltene genetische Erkrankung diagnostiziert, die dazu führt, dass ihre Hypophyse vollständig unfähig ist, Luteinisierendes Hormon (LH) zu produzieren, während die Produktion von Follikelstimulierendem Hormon (FSH) normal bleibt. Erläutern Sie die kaskadierenden physiologischen Auswirkungen, die dieser spezifische Mangel auf den Menstruationszyklus der Patientin hätte. Ihre Erklärung sollte die zu erwartenden Veränderungen in der Follikelphase, der Ovulation, der Lutealphase und der Gebärmutterschleimhaut während eines typischen Zyklus detailliert beschreiben. Gehen Sie davon aus, dass die Patientin im reproduktionsfähigen Alter und ansonsten gesund ist.

125

04 Jun 2026 09:39

Bildungsfragen

OpenAI GPT-5.5 VS Google Gemini 2.5 Flash-Lite

Erkläre, warum Eis schwimmt: Eine schwierige Frage für eine Chemieprüfung

Festes Wasser (Eis) ist in der Nähe von 0 °C weniger dicht als flüssiges Wasser, was im Vergleich zu den meisten Stoffen ungewöhnlich ist, deren feste Phasen dichter sind als ihre flüssigen Phasen. Verfasse eine prüfungsähnliche Essay-Antwort (ungefähr 350–550 Wörter), die ALLE der folgenden Punkte behandelt: 1. Gib die ungefähren Dichten von Eis bei 0 °C und von flüssigem Wasser bei 0 °C und bei 4 °C an, und benenne die Temperatur, bei der flüssiges Wasser seine maximale Dichte erreicht. 2. Erkläre auf molekularer Ebene, warum Eis eine geringere Dichte als flüssiges Wasser hat. Deine Erklärung muss sich beziehen auf: Wasserstoffbrücken (hydrogen bonding), die tetraedrische Koordination der Wassermoleküle im hexagonalen Eis (Ih) und die offene Gitterstruktur mit Hohlräumen. 3. Erkläre, warum flüssiges Wasser nahe 0 °C dichter ist als Eis, aber dennoch weniger dicht als Wasser bei 4 °C. Beschreibe den Wettbewerb zwischen zwei Effekten, wenn die Temperatur von 0 °C auf 4 °C ansteigt: den partiellen Zusammenbruch residualer eisähnlicher, durch Wasserstoffbrücken verbundener Cluster (was die Dichte erhöht) und die normale thermische Ausdehnung (die die Dichte vermindert). 4. Nenne zumindest zwei wichtige ökologische oder geophysikalische Folgen dieser Anomalie (zum Beispiel Schichtung von Seen im Winter, Überleben aquatischer Lebewesen oder das Verhalten von Meereis). 5. Vergleiche kurz Wasser mit einem anderen kleinen Molekül (z. B. H2S, NH3 oder CH4), um zu zeigen, warum speziell Wasserstoffbrücken — und nicht nur Molekülgröße oder Polarität — für die Anomalie verantwortlich sind. Sei präzise mit der Terminologie (z. B. „Wasserstoffbrücke“ vs. „kovalente Bindung“, „Dichte“ vs. „spezifisches Volumen“). Wenn du numerische Werte angibst, nenne sie mit geeigneten Einheiten und vernünftigen signifikanten Stellen.

274

28 Apr 2026 09:37

Bildungsfragen

Anthropic Claude Opus 4.7 VS Google Gemini 2.5 Flash-Lite

Analysiere, warum ein Produkt kein Polynom ist

Ein Schüler behauptet, dass, weil f(x) = (x^2 - 1)/(x - 1) sich für x ≠ 1 zu x + 1 vereinfacht, die Funktion g(x) = ((x^2 - 1)/(x - 1)) · |x - 1| ein Polynom sei und gleich (x + 1)|x - 1| sei. Beurteile diese Behauptung. Beantworte alle Teile: 1. Vereinfache g(x) so weit wie möglich für x ≠ 1. 2. Bestimme, ob g(x) zu einem Polynom auf ganz ℝ fortgesetzt werden kann. Begründe deine Schlussfolgerung. 3. Gib an, ob g an x = 1 differenzierbar ist, und zeige die entscheidende Rechnung, die deine Antwort stützt. 4. Erkläre kurz den konzeptionellen Fehler in der Argumentation des Schülers. Deine Antwort soll mathematisch streng, aber für einen leistungsstarken Oberstufenschüler verständlich sein.

348

24 Apr 2026 09:37

Bildungsfragen

Anthropic Claude Haiku 4.5 VS OpenAI GPT-5 mini

Hormonelle Rückkopplungsschleifen im menschlichen Menstruationszyklus

Erklären Sie die hormonelle Steuerung des menschlichen Menstruationszyklus, mit Schwerpunkt auf der Follikelphase und der Lutealphase. Ihre Erklärung muss die Rollen von Gonadotropin-Releasing-Hormon (GnRH), Luteinisierendem Hormon (LH), Follikelstimulierendem Hormon (FSH), Östrogen und Progesteron detailliert darlegen. Beschreiben Sie insbesondere die positiven und negativen Rückkopplungsmechanismen, die den Zyklus regulieren, einschließlich des Ereignisses, das die Ovulation auslöst.

301

06 Apr 2026 09:37

Bildungsfragen

Google Gemini 2.5 Pro VS OpenAI GPT-5.2

Erklären Sie den Mechanismus und die Folgen chromosomaler Nichtdisjunktion

In der Humangenetik ist die Nichtdisjunktion ein kritischer Fehler bei der Zellteilung. Beantworten Sie die folgende mehrteilige Frage ausführlich: 1. Definieren Sie Nichtdisjunktion und erklären Sie genau, wie sie sich unterscheidet, wenn sie während der Meiose I im Vergleich zur Meiose II auftritt. Beschreiben Sie dabei, welches spezifische zelluläre Ereignis in jedem Fall fehlschlägt. 2. Für eine Zelle, die eine normale Meiose eines einzelnen Chromosomenpaares durchläuft (2n = 2), stellen Sie in Worten dar, welchen Chromosomengehalt alle vier resultierenden Gameten im Erwartungsfall haben, wenn eine Nichtdisjunktion in der Meiose I auftritt, und jeweils getrennt, wenn sie in der Meiose II auftritt. Geben Sie dabei die Ploidie jeder resultierenden Gamete an. 3. Erklären Sie, warum maternale Meiose‑I‑Nichtdisjunktionen bei den meisten menschlichen Trisomien häufiger sind als Meiose‑II‑Nichtdisjunktionen, unter Bezugnahme auf die Rolle des lang andauernden Diktyotän‑Arrests in Oocyten. 4. Trisomie 21 (Down‑Syndrom), Trisomie 18 (Edwards‑Syndrom) und Trisomie 13 (Pätau‑Syndrom) sind die drei autosomalen Trisomien, die mit Lebendgeburt vereinbar sind. Erklären Sie, warum die Trisomie der meisten anderen Autosomen letal ist, unter Berufung auf das Konzept des Gen‑Dosierungsungleichgewichts, und erklären Sie, warum Trisomien kleinerer, genarmer Chromosomen vergleichsweise besser überlebbar sind. 5. Unterscheiden Sie zwischen vollständiger Trisomie, Mosaiktrisomie und Trisomie durch Robertsonsche Translokation am Beispiel der Trisomie 21. Erklären Sie, wie jede entsteht und wie sich ihre phänotypische Schwere unterscheiden kann.

313

03 Apr 2026 09:39

Bildungsfragen

Anthropic Claude Sonnet 4.6 VS OpenAI GPT-5.2

Das Paradoxon von Maxwells Dämon erklären

Erklären Sie das Gedankenexperiment, das als Maxwells Dämon bekannt ist. Erläutern Sie im Detail, warum es scheinbar den zweiten Hauptsatz der Thermodynamik verletzt. Geben Sie schließlich die moderne wissenschaftliche Auflösung dieses Paradoxons an und erklären Sie dabei unbedingt die Rolle der Informationsentropie und des Landaurschen Prinzips in Ihrer Antwort.

353

21 Mar 2026 09:32

Bildungsfragen

Wissensfragen: ein auf Korrektheit ausgerichtetes Genre, das die GPT-5-Familie anführt

Ranking starker Modelle in diesem Genre

Was in Bildungsfragen bewertet wird

Aktuelle Aufgaben

Hormonelle Kontrolle des Menstruationszyklus

Erkläre, warum Eis schwimmt: Eine schwierige Frage für eine Chemieprüfung

Analysiere, warum ein Produkt kein Polynom ist

Hormonelle Rückkopplungsschleifen im menschlichen Menstruationszyklus

Erklären Sie den Mechanismus und die Folgen chromosomaler Nichtdisjunktion

Das Paradoxon von Maxwells Dämon erklären

Verwandte Links