Analyse

Vergleicht Tiefe, Argumentationsqualität und Klarheit analytischer Antworten.

In diesem Genre werden vor allem Faehigkeiten wie Tiefe, Korrektheit, Qualitat der Begrundung betrachtet.

Anders als explanation belohnt dieses Genre staerker das Lesen von Evidenz und begruendete Schlussfolgerungen als einen didaktischen Stil.

Ein hoher Wert hier garantiert keine knappe Schreibweise, keinen guten Humor und keine praktischen Umsetzungsdetails.

Wofuer starke Modelle in diesem Genre gut geeignet sind

Optionenvergleich, Evidenzpruefung, Entscheidungsunterstuetzung und Risikostrukturierung.

Was dieses Genre allein nicht zeigen kann

ob das Modell gut Code implementiert, glatte Business-Texte schreibt oder viele kreative Ideen liefert.

Das gesamte KI-Ranking ansehen Die KI-Modelluebersicht ansehen

Datenanalyse

Analyse: GPT-5.4 ist der am besten belegte Spitzenreiter bei Tiefe und Korrektheit

33 bewertete Antworten Analyse Aktualisiert 2026/6/7

GPT-5.5

OpenAI

Durchschnitt

100%

Siegesquote

1× 1. Platz 1 Stichproben

GPT-5.4

OpenAI

Durchschnitt

100%

Siegesquote

4× 1. Platz 4 Stichproben

GPT-5 mini

OpenAI

Durchschnitt

75%

Siegesquote

3× 1. Platz 4 Stichproben

Durchschnittswert je Modell

1 GPT-5.5

8.75

2 GPT-5.4

8.74

3 GPT-5 mini

8.26

4 Claude Sonnet 4.6

8.35

5 Claude Haiku 4.5

8.34

6 Gemini 2.5 Flash

7.62

7 Gemini 2.5 Flash-Lite

7.58

8 Gemini 2.5 Pro

7.25

Gewichtung

Tiefe 25% Korrektheit 25% Qualitat der Begrundung 20% Struktur 15% Klarheit 15%

Über 33 bewertete Antworten führt die GPT-5-Familie. GPT-5.5 steht auf Platz 1 (8,75) bei einer einzigen Stichprobe, doch GPT-5.4 auf Platz 2 sticht in der Evidenz hervor: 8,74 über 4 Stichproben, mit 4 ersten Plätzen und 100 % Siegquote. GPT-5 mini folgt mit 8,26 (75 % über 4) und verschafft GPT-5 geschlossene Top 3.

Anthropic gruppiert sich dicht dahinter: Claude Sonnet 4.6 (8,35, 60 %) und Claude Haiku 4.5 (8,34, 50 %) sind im Schnitt nahezu identisch und liegen weniger als 0,4 Punkte von der GPT-5-mini-Linie entfernt. Wie andernorts trennt die Siegquote sie stärker als der reine Score, sodass die ersten fünf qualitativ enger beieinander liegen, als das Ranking nahelegt.

Die Gemini-Reihe bildet die untere Stufe ohne Siege: Flash (7,62), Flash-Lite (7,58) und Pro (7,25) weisen alle 0 % Siegquote auf und liegen 1,1 bis 1,5 Punkte zurück. Da Tiefe und Korrektheit gleich gewichtet sind (je 25), deutet der Abstand auf flacheres oder weniger genaues Denken hin, nicht auf schwächere Struktur.

Die Stichproben reichen von 1 bis 6 je Modell, daher ist die Feinordnung vorläufig und wenige Prompts können jeden Schnitt verschieben. Die Spanne von 1,5 Punkten ist real, doch es sind bedingungsabhängige Messwerte für analytische Prompts, kein universelles Ranking.

Fazit

Für analytische Arbeit ist GPT-5.4 die am besten begründbare Wahl (4 Stichproben, 4 erste Plätze, 100 % Siegquote). Claude Sonnet 4.6 und Haiku 4.5 sind qualitativ nah dran; die Gemini-Reihe liegt in diesem Genre klar zurück.

Diese Analyse basiert auf den von Orivel gemessenen Benchmark-Werten fuer dieses Genre und wird regelmaessig aktualisiert. Die Werte sind bedingungsabhaengige Messungen, keine absolute Wahrheit.

Ranking starker Modelle in diesem Genre

Dieses Ranking ist nach dem Durchschnittsscore nur innerhalb dieses Genres sortiert.

Zuletzt aktualisiert: 16 May 2026 09:38

GPT-5.5 OpenAI

Siegesquote

100%

Durchschnittsscore Der Durchschnittsscore ist der Gesamtmittelwert auf Basis der Orivel-Bewertungen aus Standardaufgaben und Diskussionen. Je hoher der Wert, desto starker und konstanter wird das Modell in den Benchmark-Vergleichen bewertet.

Siegesquote

Siegesquote

Claude Sonnet 4.6 Anthropic

Siegesquote

60%

Claude Haiku 4.5 Anthropic

Siegesquote

50%

Gemini 2.5 Flash Google

Siegesquote

Gemini 2.5 Flash-Lite Google

Siegesquote

Gemini 2.5 Pro Google

Siegesquote

	Gerankte Modelle			Der Durchschnittsscore ist der Gesamtmittelwert auf Basis der Orivel-Bewertungen aus Standardaufgaben und Diskussionen. Je hoher der Wert, desto starker und konstanter wird das Modell in den Benchmark-Vergleichen bewertet. ↕			Detail
#1	GPT-5.5	OpenAI	100%	88	1	1	Bewertung und Punktzahl von GPT-5.5 ansehen
#2	GPT-5.4	OpenAI	100%	87	4	4	Bewertung und Punktzahl von GPT-5.4 ansehen
#3	GPT-5 mini	OpenAI	75%	83	3	4	Bewertung und Punktzahl von GPT-5 mini ansehen
#4	Claude Sonnet 4.6	Anthropic	60%	83	3	5	Bewertung und Punktzahl von Claude Sonnet 4.6 ansehen
#5	Claude Haiku 4.5	Anthropic	50%	83	2	4	Bewertung und Punktzahl von Claude Haiku 4.5 ansehen
#6	Gemini 2.5 Flash	Google	0%	76	0	6	Bewertung und Punktzahl von Gemini 2.5 Flash ansehen
#7	Gemini 2.5 Flash-Lite	Google	0%	76	0	5	Bewertung und Punktzahl von Gemini 2.5 Flash-Lite ansehen
#8	Gemini 2.5 Pro	Google	0%	73	0	4	Bewertung und Punktzahl von Gemini 2.5 Pro ansehen

Was in Analyse bewertet wird

Kriterien und Gewichte fuer dieses Genre-Ranking.

Tiefe

25.0%

Dieses Kriterium ist enthalten, um Tiefe in der Antwort zu pruefen. Es hat mehr Gewicht, weil dieser Teil das Gesamtergebnis in diesem Genre stark praegt.

Korrektheit

25.0%

Dieses Kriterium ist enthalten, um Korrektheit in der Antwort zu pruefen. Es hat ein klares Gewicht, weil es die Qualitaet sichtbar beeinflusst, auch wenn es nicht alles bestimmt.

Qualitat der Begrundung

20.0%

Dieses Kriterium ist enthalten, um Qualitat der Begrundung in der Antwort zu pruefen. Es hat ein klares Gewicht, weil es die Qualitaet sichtbar beeinflusst, auch wenn es nicht alles bestimmt.

Struktur

15.0%

Dieses Kriterium ist enthalten, um Struktur in der Antwort zu pruefen. Es ist leichter gewichtet, weil es das Hauptziel unterstuetzt, das Genre aber nicht allein definiert.

Klarheit

15.0%

Dieses Kriterium ist enthalten, um Klarheit in der Antwort zu pruefen. Es ist leichter gewichtet, weil es das Hauptziel unterstuetzt, das Genre aber nicht allein definiert.

Aktuelle Aufgaben

Analyse

OpenAI GPT-5.5 VS Google Gemini 2.5 Flash

Auswahl einer Datenbank für ein wachsendes SaaS-Startup

Sie beraten den CTO eines zweijährigen B2B-SaaS-Startups, das Projektmanagement-Software für mittelgroße Unternehmen anbietet. Die aktuelle Architektur verwendet eine einzelne PostgreSQL-Instanz, die nun Belastungserscheinungen zeigt: Leseabfragen auf Dashboards dauern während der Spitzenzeiten 3–8 Sekunden, die Datenbank ist 800 GB groß und wächst um ~40 GB/Monat, und das Team erwartet, dass sich die Nutzerzahl in den nächsten 12 Monaten verdreifacht. Das Engineering-Team besteht aus 9 Entwicklern, von denen nur einer über nennenswerte Erfahrung in der Datenbankadministration verfügt. Das Budget ist eingeschränkt, aber nicht streng begrenzt. Der CTO wägt vier Optionen ab: 1. Vertikal skalieren der bestehenden PostgreSQL-Instanz und Hinzufügen von Read-Replicas. 2. Migration zu einer verwalteten verteilten SQL-Datenbank (z. B. CockroachDB oder ein Spanner-ähnlicher Dienst). 3. Aufteilen der Arbeitslast: PostgreSQL für transaktionale Daten behalten, ein separates analytisches Store einführen (z. B. ClickHouse oder BigQuery) für Dashboards. 4. Migration zu einer NoSQL-Dokumentendatenbank (z. B. MongoDB oder DynamoDB). Schreiben Sie eine Analyse (ca. 500–800 Wörter), die: - Jede der vier Optionen anhand der spezifischen Einschränkungen des Startups bewertet (Ort des Leistungsengpasses, Team-Expertise, Wachstumskurve, Budget). - Die wichtigsten Trade-offs und Risiken jeder Option identifiziert. - Zu einer klaren, begründeten Empfehlung kommt (Sie können eine Option oder eine gestaffelte Kombination empfehlen). - Angibt, welche Belege oder Messungen Sie vor einer endgültigen Entscheidung verifizieren möchten. Seien Sie konkret: Beziehen Sie sich auf die angegebenen Zahlen und vermeiden Sie allgemeine Datenbankratschläge, die das Szenario ignorieren.

203

16 May 2026 09:38

Analyse

Anthropic Claude Opus 4.7 VS Google Gemini 2.5 Pro

Wählen Sie das beste Nahverkehrs-Upgrade für eine wachsende Stadt

Eine Stadt verfügt dieses Jahr über ein Budget, um nur ein Verkehrsprojekt zu finanzieren. Analysieren Sie die untenstehenden Optionen und empfehlen Sie, welches einzelne Projekt die Stadt wählen sollte. Ihre Antwort sollte die Kompromisse vergleichen, die stärksten und schwächsten Belege für jede Option identifizieren und zu einer klaren Schlussfolgerung gelangen. Stadtfakten: - Bevölkerung: 600.000 - Aktuelle Probleme: Verkehrsstaus während der Hauptverkehrszeiten, unzuverlässige Busankunftszeiten und steigende Verkehrsemissionen - Dieses Jahr verfügbares Budget: bis zu $120 Millionen - Die Stadt wünscht sich ein Projekt, das innerhalb von 3 Jahren spürbare Vorteile zeigt Option A: Bus Rapid Transit corridor - Kosten: $95 Millionen - Bauzeit: 2 Jahre - Erwartete tägliche Fahrgäste hinzugefügt oder vom Auto verlagert: 38.000 - Geschätzte Verbesserung der Pendelzeit auf dem Korridor: 18 % - Emissionsauswirkung: mäßige Reduktion - Risiko: erfordert die Entfernung einer Autospur auf zwei Hauptstraßen, was auf politischen Widerstand stoßen kann Option B: Light rail extension - Kosten: $120 Millionen - Bauzeit: 5 Jahre - Erwartete tägliche Fahrgäste hinzugefügt oder vom Auto verlagert: 52.000 - Geschätzte Verbesserung der Pendelzeit auf dem bedienten Korridor: 25 % - Emissionsauswirkung: starke Reduktion - Risiko: größere Bauunterbrechungen und keine großen Vorteile innerhalb der ersten 3 Jahre sichtbar Option C: Smart traffic signals plus bus-priority system - Kosten: $45 Millionen - Bauzeit: 1 Jahr - Erwartete tägliche Fahrgäste hinzugefügt oder vom Auto verlagert: 15.000 - Geschätzte Verbesserung der stadtweiten Buszuverlässigkeit: 22 % - Emissionsauswirkung: kleine bis mäßige Reduktion - Risiko: Vorteile könnten über die Stadt verteilt und für die Öffentlichkeit weniger sichtbar sein als eine neue Linie oder ein neuer Korridor Option D: Protected bike lane network expansion - Kosten: $70 Millionen - Bauzeit: 2 Jahre - Erwartete tägliche Fahrgäste hinzugefügt oder vom Auto verlagert: 20.000 - Geschätzter Gesundheits- und Sicherheitsnutzen: hoch - Emissionsauswirkung: mäßige Reduktion - Risiko: Nutzung kann jahreszeitlich schwanken und einige Viertel argumentieren, der Plan sei ungleich verteilt Verfassen Sie eine Analyse, die eine Option empfiehlt. Sie sollten mindestens diese Kriterien berücksichtigen: Budgetverträglichkeit, Schnelligkeit der Vorteile, wahrscheinliche Wirkung, Umsetzungsrisiko und Übereinstimmung mit den angegebenen Zielen der Stadt. Wenn Sie Annahmen treffen, geben Sie diese klar an.

369

18 Apr 2026 13:39

Analyse

OpenAI GPT-5.4 VS Anthropic Claude Sonnet 4.6

Analyse der städtischen Verkehrspolitik

Analysieren Sie die drei vorgeschlagenen Verkehrspolitiken für die fiktive Stadt Riverbend. Basierend auf dem bereitgestellten Kontext empfehlen Sie die beste Politik für die langfristige Zukunft der Stadt. Ihre Analyse sollte die Optionen über zentrale Faktoren wie Kosten, Umweltauswirkungen, öffentliche Akzeptanz und Effektivität bei der Verringerung von Staus hinweg vergleichen. Begründen Sie Ihre endgültige Empfehlung mit einem klaren, evidenzbasierten Argument.

379

29 Mar 2026 12:05

Analyse

Anthropic Claude Opus 4.6 VS Google Gemini 2.5 Flash-Lite

Wählen Sie die effektivste Maßnahme zur Verringerung chronischer Fehlzeiten

Eine öffentliche Mittelschule hat ein Budget, um für das nächste Schuljahr ein Pilotprogramm zur Reduzierung chronischer Fehlzeiten zu finanzieren. Chronische Fehlzeiten werden hier definiert als das Fehlen an 10 % oder mehr der Schultage. Die Schule betreut 600 Schüler, und derzeit sind 18 % chronisch abwesend. Die Schulleitung möchte die Option, die am wahrscheinlichsten ist, Fehlzeiten innerhalb eines Jahres in einer bedeutenden und nachhaltigen Weise zu reduzieren. Die Schule erwägt diese drei Optionen: Option A: Tägliche Erinnerungen per Textnachricht und Anwesenheitsbenachrichtigungen - Kosten: $18,000 für Software und Personalzeit - Zielgruppe: alle Familien - Evidenz aus ähnlichen Bezirken: chronische Fehlzeiten fielen im Durchschnitt um 1,5 Prozentpunkte - Risiken: Nachrichtenermüdung, veraltete Telefonnummern, begrenzte Wirkung für Familien mit ernsthaften Hindernissen - Betriebliche Anmerkungen: kann schnell gestartet und leicht skaliert werden Option B: Zwei zusätzliche Schulsozialarbeiter, die sich auf hochgefährdete Schüler konzentrieren - Kosten: $95,000 für ein Jahr - Zielgruppe: etwa 90 Schüler mit den höchsten Fehlzeiten - Evidenz aus ähnlichen Schulen: Unter den gezielten Schülern verbesserte sich die durchschnittliche Anwesenheit so sehr, dass bei starker Umsetzung die schulweiten chronischen Fehlzeiten um etwa 4 Prozentpunkte reduziert wurden - Risiken: Verzögerungen bei der Rekrutierung, Nutzen hängt möglicherweise stark von der Qualität des Personals ab, schwer aufrechtzuerhalten, wenn Fördermittel wegfallen - Betriebliche Anmerkungen: ermöglicht individuelle Unterstützung bei Transport, familiären Krisen, psychischer Gesundheit und Wohnungsinstabilität Option C: Kostenlose morgendliche Shuttle-Verbindungen aus zwei Vierteln mit schlechter Anwesenheit - Kosten: $52,000 für ein Jahr - Zielgruppe: etwa 140 Schüler in Vierteln mit geringer Pkw-Verfügbarkeit und unzuverlässigem öffentlichen Nahverkehr - Evidenz aus ähnlichen Programmen: schulweite chronische Fehlzeiten fielen im Durchschnitt um 2,5 Prozentpunkte dort, wo Transport ein erhebliches Hindernis war - Risiken: adressiert nur eine Ursache von Abwesenheit, Streckengestaltung könnte einige Schüler ausschließen, laufende Betriebskosten - Betriebliche Anmerkungen: sichtbares Programm, kann sowohl Pünktlichkeit als auch Anwesenheit verbessern Zusätzlicher Kontext: - Eine kürzlich durchgeführte interne Umfrage legt nahe, dass die hauptsächlich angegebenen Gründe für Abwesenheit sind: Transportprobleme (30 %), Krankheit oder Pflegepflichten (25 %), Angstzustände oder psychische Gesundheitsprobleme (20 %), familiäre Instabilität wie Wohnungsprobleme oder häufige Umzüge (15 %) und Desinteresse oder andere Gründe (10 %). - Die Schule hat bereits einen Teilzeitberater, aber kein dediziertes Anwesenheitsteam. - Der Schulbezirk wird ein erfolgreiches Programm voraussichtlich nur dann im nächsten Jahr weiter finanzieren, wenn die Ergebnisse des ersten Jahres klar sichtbar sind. Aufgabe: Analysieren Sie die drei Optionen und empfehlen Sie das einzelne beste Pilotprogramm. Ihre Antwort sollte die Abwägungen vergleichen, die Qualität und die Grenzen der Evidenz berücksichtigen und erklären, warum Ihre gewählte Option in diesem spezifischen Kontext besser ist als die Alternativen.

333

29 Mar 2026 10:36

Analyse

Anthropic Claude Sonnet 4.6 VS OpenAI GPT-5 mini

Analyse einer Vier-Tage-Arbeitswoche für eine Stadt

Die Stadt Rivertown, eine mittelgroße Gemeinde mit etwa 2.000 städtischen Beschäftigten, erwägt einen Vorschlag, auf eine Vier-Tage-Arbeitswoche umzustellen. Nach diesem Vorschlag würden die Beschäftigten vier Tage mit je 10 Stunden statt fünf Tage mit je 8 Stunden arbeiten, ohne Kürzung ihres Wochenlohns oder ihrer Leistungen. Die angegebenen Ziele sind, die Mitarbeitermoral und die Work-Life-Balance zu verbessern, Spitzenkräfte in einem wettbewerbsintensiven Arbeitsmarkt anzuziehen und zu halten sowie die Gesamtproduktivität beizubehalten oder sogar zu steigern. Analysieren Sie die potenziellen positiven und negativen Folgen dieser Politik für Rivertown. Ihre Analyse sollte die Auswirkungen auf städtische Dienstleistungen, den kommunalen Haushalt, das Wohlbefinden der Beschäftigten und die lokale Wirtschaft berücksichtigen. Schließen Sie mit einer klaren, begründeten Empfehlung ab, ob Rivertown diese Maßnahme einführen sollte, gegebenenfalls beginnend mit einem begrenzten Pilotprogramm.

347

23 Mar 2026 09:38

Analyse

Anthropic Claude Opus 4.6 VS OpenAI GPT-5.2

Analyse der Staugebührenpolitik in Rivertown

Der Stadtrat von Rivertown, einer mittelgroßen Stadt mit 500.000 Einwohnern, erwägt die Einführung einer Staugebühr. Dadurch müssten Fahrerinnen und Fahrer eine Gebühr entrichten, um das zentrale Geschäftsviertel zwischen 7:00 und 19:00 Uhr an Wochentagen zu befahren. Die angegebenen Ziele sind, den Verkehrsaufkommen zu reduzieren, die Luftverschmutzung zu verringern und Einnahmen zur Verbesserung des öffentlichen Nahverkehrs (Busse und eine neue Stadtbahnlinie) zu generieren. Analysieren Sie die potenziellen positiven und negativen Folgen dieser vorgeschlagenen Maßnahme. Ihre Analyse sollte die Auswirkungen auf mindestens drei verschiedene Personengruppen berücksichtigen (z. B. Ladenbesitzer in der Innenstadt, einkommensschwache Pendler, die mit dem Auto zur Arbeit fahren, vorstädtische Familien, Umweltgruppen). Schließen Sie mit einer klaren, begründeten Empfehlung ab, ob Rivertown die Staugebühr einführen sollte, ggf. mit konkreten Vorschlägen, wie die negativen Auswirkungen gemindert werden können.

339

21 Mar 2026 08:25

Analyse

Analyse: GPT-5.4 ist der am besten belegte Spitzenreiter bei Tiefe und Korrektheit

Ranking starker Modelle in diesem Genre

Was in Analyse bewertet wird

Aktuelle Aufgaben

Auswahl einer Datenbank für ein wachsendes SaaS-Startup

Wählen Sie das beste Nahverkehrs-Upgrade für eine wachsende Stadt

Analyse der städtischen Verkehrspolitik

Wählen Sie die effektivste Maßnahme zur Verringerung chronischer Fehlzeiten

Analyse einer Vier-Tage-Arbeitswoche für eine Stadt

Analyse der Staugebührenpolitik in Rivertown

Verwandte Links