Benchmark-Genres
Durchsuche die Benchmark-Genres auf Orivel zum Vergleich von KI-Modellen. Jedes Genre hat eigene Bewertungskriterien und Benchmark-Beispiele.
So funktioniert das Benchmarking nach Genre
Eine einzige Gesamtbewertung verbirgt, wie unterschiedlich sich KI-Modelle von Aufgabe zu Aufgabe verhalten. Ein Modell, das hervorragend schreibt, kann beim Programmieren scheitern; eines, das in langen Debatten gut argumentiert, fasst vielleicht schlecht zusammen. Orivel ordnet jeden Vergleich Genres zu — Programmierung, kreatives Schreiben, Zusammenfassung, Diskussion und mehr — damit du siehst, welches Modell bei genau der Arbeit fuhrt, die dir wichtig ist. Jedes Genre hat eigene gewichtete Bewertungskriterien, und die Ranglisten werden ausschliesslich aus abgeschlossenen, bewerteten Vergleichen innerhalb dieses Genres berechnet. Wahle unten ein Genre, um seine Rangliste, die gewichteten Kriterien und aktuelle Beispielaufgaben zu offnen.
Debatte (190)
Zwei KI-Modelle vertreten gegensätzliche Positionen und werden nach Logik, Widerlegung und Überzeugungskraft verglichen.
Debatte: Anthropic-Modelle führen, die Gemini-Reihe gewinnt kaum Schlagabtausche
Rollenspiel (23)
Vergleicht Rollenkonsistenz, Natürlichkeit und Qualität der Antworten im Rollenspiel.
Rollenspiel: Claude Sonnet 4.6 dominiert die Rollenkonsistenz
Kreatives Schreiben (22)
Vergleicht Ideenreichtum, Aufbau und Stil beim kreativen Schreiben zwischen KI-Modellen.
Kreatives Schreiben: Die GPT-5-Familie führt, doch die meisten Werte beruhen auf wenigen Stichproben
Überzeugung (22)
Vergleicht, wie überzeugend KI-Modelle auf ein bestimmtes Publikum wirken.
Überzeugung: Claude Sonnet 4.6 führt – ein Echo seiner Stärke in der Debatte
Zusammenfassung (24)
Vergleicht, wie gut KI-Modelle lange Texte verdichten und zentrale Informationen erhalten.
Zusammenfassung: ein Genre mit hohem Niveau, in dem selbst leichte Modelle mithalten
Programmierung (22)
Vergleicht Korrektheit, Qualität und Praxistauglichkeit des erzeugten Codes.
Programmierung: Die GPT-5-Familie dominiert die Spitze, meist auf dünner Stichprobe
Bildungsfragen (21)
Vergleicht, wie präzise KI-Modelle Bildungs- und Prüfungsfragen beantworten.
Wissensfragen: ein auf Korrektheit ausgerichtetes Genre, das die GPT-5-Familie anführt
Analyse (21)
Vergleicht Tiefe, Argumentationsqualität und Klarheit analytischer Antworten.
Analyse: GPT-5.4 ist der am besten belegte Spitzenreiter bei Tiefe und Korrektheit
Geschäftstexte (21)
Vergleicht E-Mails, Vorschläge, Berichte und andere berufliche Texte von KI-Modellen.
Business-Texte: GPT-5 mini führt sowohl in Qualität als auch bei Siegen
Systemdesign (22)
Vergleicht Architekturdenken, Trade-off-Analyse und die Qualität des Systemdesigns.
Systemdesign: GPT-5 und Anthropic drängen sich an der Spitze, Gemini fällt zurück
Erklärung (21)
Vergleicht, wie verständlich KI-Modelle schwierige Inhalte erklären.
Erklärung: ein enges Genre auf hohem Niveau, angeführt von GPT-5.4 und Claude Sonnet
Brainstorming (22)
Vergleicht Anzahl, Vielfalt und Neuartigkeit der von KI erzeugten Ideen.
Brainstorming: GPT-5.4 und GPT-5 mini führen bei Vielfalt und Originalität
Planung (20)
Vergleicht Umsetzbarkeit, Priorisierung und Struktur in von KI erstellten Plänen.
Planung: Die GPT-5-Familie räumt ab, die Gemini-Reihe fällt weit zurück
Ideenfindung (21)
Vergleicht Originalität, Nutzen und Vielfalt der von KI erzeugten Ideen.
Ideenfindung: GPT-5 führt bei Nützlichkeit, die Gemini-Reihe hinkt hinterher
Beratung (23)
Vergleicht sichere und angemessene Antworten auf alltägliche Sorgen in einem experimentellen Genre.
Beratung: ein sicherheitsgewichtetes Genre mit durchweg hohem Niveau
Dieses Genre ist experimentell
Empathie (21)
Vergleicht empathische und angemessene Antworten in einem experimentellen Genre.
Empathie: ein enges Genre auf hohem Niveau, angeführt von GPT-5.5 und Claude Sonnet
Dieses Genre ist experimentell
Humor (21)
Vergleicht Originalität und Wirkung von Humor in einem noch experimentellen Genre.
Humor: GPT-5 führt ein subjektives Genre, die Gemini-Reihe verpufft
Dieses Genre ist experimentell