Humor

Experimentell

Vergleicht Originalität und Wirkung von Humor in einem noch experimentellen Genre.

In diesem Genre werden vor allem Faehigkeiten wie Humorwirkung, Originalitat, Koharenz betrachtet.

Anders als creative writing geht es hier direkter darum, ob ein Text fuer das Zielpublikum wirklich als Humor funktioniert.

Ein hoher Wert hier garantiert keine Sicherheit in sensiblen Situationen, keine Faktengenauigkeit und keinen professionellen Ton.

Wofuer starke Modelle in diesem Genre gut geeignet sind

Witze, leichte Copy, kleine Unterhaltung und Prompts mit komischem Ziel.

Was dieses Genre allein nicht zeigen kann

ob das Modell besser fuer ernste Anleitung, vorsichtigen Support oder exakte Business-Kommunikation geeignet ist.

Das gesamte KI-Ranking ansehen Die KI-Modelluebersicht ansehen

Datenanalyse

Humor: GPT-5 führt ein subjektives Genre, die Gemini-Reihe verpufft

31 bewertete Antworten Humor Aktualisiert 2026/6/7

Claude Opus 4.8

Anthropic

Durchschnitt

100%

Siegesquote

1× 1. Platz 1 Stichproben

GPT-5 mini

OpenAI

Durchschnitt

100%

Siegesquote

4× 1. Platz 4 Stichproben

GPT-5.4

OpenAI

Durchschnitt

75%

Siegesquote

3× 1. Platz 4 Stichproben

Durchschnittswert je Modell

1 Claude Opus 4.8

8.61

2 GPT-5 mini

8.16

3 GPT-5.4

8.44

4 Claude Haiku 4.5

7.64

5 Claude Sonnet 4.6

8.24

6 GPT-5.5

8.15

7 Gemini 2.5 Pro

6.95

8 Gemini 2.5 Flash

6.84

9 Gemini 2.5 Flash-Lite

6.42

Gewichtung

Humorwirkung 35% Originalitat 25% Koharenz 15% Klarheit 15% Befolgung der Anweisungen 10%

Über 31 bewertete Antworten wird die Spitze von GPT-5 und Opus angeführt. Claude Opus 4.8 (8,61) steht auf Platz 1 bei einer einzigen Stichprobe, daher ist der am besten belegte Spitzenreiter GPT-5 mini auf Platz 2: 8,16 über 4 Stichproben, mit 4 ersten Plätzen und 100 % Siegquote. GPT-5.4 (8,44, 75 % über 4) steht mit höherem Schnitt auf Platz 3, erneut bei der Siegquote überholt.

Anthropic ist gespalten: Claude Haiku 4.5 (7,64, 67 %) steht auf Platz 4 trotz eines niedrigeren Schnitts als Claude Sonnet 4.6 (8,24, 50 %) auf Platz 5 – eine Erinnerung daran, dass diese Bewertung das Gewinnen des Witzes im direkten Duell höher belohnt als einen geschliffenen Schnitt. GPT-5.5 (8,15) fällt auf Platz 6 bei einer einzigen Stichprobe ohne Siege.

Die Gemini-Reihe ist die klare Schwachstelle: 2.5 Pro (6,95), Flash (6,84) und Flash-Lite (6,42) weisen alle 0 % Siegquote auf und sind die einzigen Modelle unter 7. Da Humorwirkung mit 35 am höchsten gewichtet ist und Originalität mit 25, deutet der Abstand auf Witze hin, die seltener zünden – die am schwersten und subjektivsten zu messende Eigenschaft.

Humor ist von Natur aus subjektiv und die Stichproben reichen von 1 bis 5 je Modell, daher ist die Feinordnung als vorläufig zu lesen; wenige Prompts und der Geschmack eines einzigen Bewerters können jeden Schnitt verschieben. Die Spanne von 2,19 Punkten ist real, doch es sind bedingungsabhängige Messwerte, kein universelles Urteil über Witz.

Fazit

Für Humor ist GPT-5 mini die am besten begründbare Wahl (4 Stichproben, 4 erste Plätze, 100 % Siegquote), mit GPT-5.4 qualitativ nah dran. Die Gemini-Reihe landet in diesem subjektiven Genre durchgängig unter dem Rest.

Diese Analyse basiert auf den von Orivel gemessenen Benchmark-Werten fuer dieses Genre und wird regelmaessig aktualisiert. Die Werte sind bedingungsabhaengige Messungen, keine absolute Wahrheit.

Ranking starker Modelle in diesem Genre

Dieses Ranking ist nach dem Durchschnittsscore nur innerhalb dieses Genres sortiert.

Zuletzt aktualisiert: 31 May 2026 09:35

Claude Opus 4.8 Anthropic

Siegesquote

100%

Durchschnittsscore Der Durchschnittsscore ist der Gesamtmittelwert auf Basis der Orivel-Bewertungen aus Standardaufgaben und Diskussionen. Je hoher der Wert, desto starker und konstanter wird das Modell in den Benchmark-Vergleichen bewertet.

Siegesquote

Siegesquote

Claude Haiku 4.5 Anthropic

Siegesquote

67%

Claude Sonnet 4.6 Anthropic

Siegesquote

50%

GPT-5.5 OpenAI

Siegesquote

Gemini 2.5 Pro Google

Siegesquote

Gemini 2.5 Flash Google

Siegesquote

Gemini 2.5 Flash-Lite Google

Siegesquote

	Gerankte Modelle			Der Durchschnittsscore ist der Gesamtmittelwert auf Basis der Orivel-Bewertungen aus Standardaufgaben und Diskussionen. Je hoher der Wert, desto starker und konstanter wird das Modell in den Benchmark-Vergleichen bewertet. ↕			Detail
#1	Claude Opus 4.8 NEU	Anthropic	100%	86	1	1	Bewertung und Punktzahl von Claude Opus 4.8 ansehen
#2	GPT-5 mini	OpenAI	100%	82	4	4	Bewertung und Punktzahl von GPT-5 mini ansehen
#3	GPT-5.4	OpenAI	75%	84	3	4	Bewertung und Punktzahl von GPT-5.4 ansehen
#4	Claude Haiku 4.5	Anthropic	67%	76	2	3	Bewertung und Punktzahl von Claude Haiku 4.5 ansehen
#5	Claude Sonnet 4.6	Anthropic	50%	82	2	4	Bewertung und Punktzahl von Claude Sonnet 4.6 ansehen
#6	GPT-5.5	OpenAI	0%	82	0	1	Bewertung und Punktzahl von GPT-5.5 ansehen
#7	Gemini 2.5 Pro	Google	0%	69	0	4	Bewertung und Punktzahl von Gemini 2.5 Pro ansehen
#8	Gemini 2.5 Flash	Google	0%	68	0	5	Bewertung und Punktzahl von Gemini 2.5 Flash ansehen
#9	Gemini 2.5 Flash-Lite	Google	0%	64	0	5	Bewertung und Punktzahl von Gemini 2.5 Flash-Lite ansehen

Was in Humor bewertet wird

Kriterien und Gewichte fuer dieses Genre-Ranking.

Humorwirkung

35.0%

Dieses Kriterium ist enthalten, um Humorwirkung in der Antwort zu pruefen. Es hat mehr Gewicht, weil dieser Teil das Gesamtergebnis in diesem Genre stark praegt.

Originalitat

25.0%

Dieses Kriterium ist enthalten, um Originalitat in der Antwort zu pruefen. Es hat ein klares Gewicht, weil es die Qualitaet sichtbar beeinflusst, auch wenn es nicht alles bestimmt.

Koharenz

15.0%

Dieses Kriterium ist enthalten, um Koharenz in der Antwort zu pruefen. Es ist leichter gewichtet, weil es das Hauptziel unterstuetzt, das Genre aber nicht allein definiert.

Klarheit

15.0%

Dieses Kriterium ist enthalten, um Klarheit in der Antwort zu pruefen. Es ist leichter gewichtet, weil es das Hauptziel unterstuetzt, das Genre aber nicht allein definiert.

Befolgung der Anweisungen

10.0%

Dieses Kriterium ist enthalten, um Befolgung der Anweisungen in der Antwort zu pruefen. Es ist leichter gewichtet, weil es das Hauptziel unterstuetzt, das Genre aber nicht allein definiert.

Aktuelle Aufgaben

Humor

Anthropic Claude Opus 4.8 VS Google Gemini 2.5 Flash-Lite

Familienfreundlicher Humor: Der überaus ehrliche Museums-Audioguide

Schreiben Sie einen kurzen komödiantischen Dialog zwischen einem Museumsbesucher und einem ungewöhnlich ehrlichen Audioguide bei einer fiktiven Ausstellung namens „Alltägliche Gegenstände, die die Geschichte veränderten“. Der Besucher versucht, eine ernsthafte kulturelle Erfahrung zu machen, während der Audioguide immer wieder peinliche, lustige, aber durchaus plausible Hintergrundfakten über die Objekte offenbart. Enthalten Sie genau 10 Dialogzeilen, die zwischen Besucher und Audioguide abwechseln, beginnend mit Besucher. Halten Sie den Humor familienfreundlich, geistreich und für ein allgemeines Publikum geeignet. Verwenden Sie keine Beleidigungen, keine obszönen Wörter, keinen sexuellen Humor, keine Stereotype und keine Hinweise auf lebende reale Personen. Die letzte Zeile sollte als Pointe landen, die auf die erste Zeile zurückführt.

122

31 May 2026 09:35

Humor

Anthropic Claude Opus 4.7 VS Google Gemini 2.5 Pro

Sanfter Humor für einen Bibliotheks-Feldführer

Schreibe 10 humorvolle Feldführer-Einträge für gewöhnliche Gegenstände, die in einer öffentlichen Bibliothek zu finden sind, wie ein Heftgerät, ein Buchwagen, ein Drucker, ein Bibliotheksausweis, ein Bleistift oder ein Rückgabekasten. Jeder Eintrag muss einen erfundenen wissenschaftlichen Namen, ein beobachtbares Verhalten und einen sanften Witz enthalten. Der Humor sollte warmherzig, geistreich und sowohl für Erwachsene als auch für Kinder ab 10 Jahren geeignet sein. Vermeide gehässige Witze, Stereotype, Ekelhumor, sexuelle Anspielungen, Kraftausdrücke und aktuelle Popkultur-Referenzen. Halte jeden Eintrag auf 1 bis 2 Sätze, und sorge dafür, dass sich alle 10 Einträge unterschiedlich anfühlen, statt nur Varianten desselben Witzes zu sein.

194

17 May 2026 09:37

Humor

OpenAI GPT-5.5 VS Anthropic Claude Sonnet 4.6

Stand-up-Routine für eine Tech-Konferenz

Schreibe eine 2-minütige Stand-up-Comedy-Routine für einen Comedian, der auf einer großen Tech-Konferenz auftritt. Das Publikum besteht hauptsächlich aus Softwareingenieuren und Projektmanagern. Die Routine sollte sich auf die lustigen oder absurden Aspekte von Remote-Arbeit und den 'agilen' Entwicklungsmethoden konzentrieren. Der Ton sollte sarkastisch und beobachtend sein, aber letztlich gutmütig und für ein Unternehmensumfeld unbedenklich.

184

10 May 2026 09:38

Humor

OpenAI GPT-5 mini VS Google Gemini 2.5 Flash

Schreibe ein Stand-up-Comedy-Set über die Absurditäten des Lebensmitteleinkaufs

Schreibe ein kurzes Stand-up-Comedy-Set (ca. 400–600 Wörter), vorgetragen von einem fiktiven Comedian bei einem Open-Mic-Abend. Das gesamte Set sollte sich um die alltäglichen Absurditäten des Lebensmitteleinkaufs drehen — vom Navigieren durch die Gänge über Selbstbedienungskassen bis hin zu den unausgesprochenen sozialen Regeln unter den Einkäufern. Anforderungen: 1. Das Set muss in der ersten Person geschrieben sein, so als würde es auf der Bühne gesprochen, einschließlich natürlicher Pausen, Signalen für Publikumsinteraktion oder Rückbezügen, die ein echter Comedian verwenden könnte. 2. Der Humor sollte beobachtend und nachvollziehbar sein — kein Schockhumor, keine derbe Sprache und keine gehässigen Witze, die sich gegen bestimmte Gruppen von Menschen richten. 3. Beinhaltet mindestens drei deutlich unterscheidbare Comedy-Bits (Mini-Themen) innerhalb des Themas Lebensmitteleinkauf, mit geschmeidigen Übergängen dazwischen. 4. Beende das Set mit einem starken Schlusswitz oder Rückbezug, der wieder auf etwas eingeht, das zuvor im Set erwähnt wurde. 5. Der Ton sollte passend für ein allgemeines erwachsenes Publikum sein (denken Sie an einen sauberen Comedy-Club-Abend).

298

31 Mar 2026 09:37

Humor

Google Gemini 2.5 Flash VS OpenAI GPT-5.2

Firmen-Jargon-Roast: Ein satirisches Büromemo

Schreiben Sie ein satirisches, internes Firmenmemo (ungefähr 300–500 Wörter) von einem fiktiven Middle Manager namens "Derek from Synergy Solutions", das eine neue, absurd überflüssige Unternehmensrichtlinie ankündigt. Das Memo sollte: 1. In übertriebenem Unternehmensjargon und mit Buzzwords verfasst sein (z. B. "synergize", "circle back", "leverage", "move the needle"). 2. Eine Richtlinie ankündigen, die wichtig klingt, bei näherer Betrachtung jedoch völlig sinnlos oder kontraproduktiv ist. 3. Während des gesamten Textes einen todernsten, nüchternen Ton beibehalten — der Humor sollte aus dem Kontrast zwischen der formellen Darbietung und dem lächerlichen Inhalt entstehen. 4. Mindestens ein erfundenes Akronym oder einen Initiativnamen enthalten, der plausibel klingt. 5. Mit einer Signaturzeile enden, die einen letzten komischen Akzent setzt. Das Memo sollte für jede Person, die in einer Firmenbüroumgebung gearbeitet hat, lustig sein, dabei aber arbeitsplatzgeeignet bleiben (keine Obszönitäten, keine Angriffe auf geschützte Gruppen, kein boshaftes Verhalten gegenüber echten Firmen oder Personen).

361

29 Mar 2026 11:47

Humor

Anthropic Claude Haiku 4.5 VS Google Gemini 2.5 Flash-Lite

Familienfreundlicher Stand-up-Monolog für die nervöse Eröffnung eines Wissenschaftsmuseums

Schreiben Sie einen familienfreundlichen, originellen Stand-up-Monolog von 220 bis 320 Wörtern für einen Moderator, der eine neue Ausstellung in einem Wissenschaftsmuseum über alltägliche Haushaltsgegenstände eröffnet. Das Publikum ist gemischt: Kinder ab 10 Jahren, Eltern, Lehrkräfte und lokale Förderer. Der Sprecher ist etwas nervös, versucht aber, selbstbewusst und charmant zu wirken. Erforderliche Vorgaben: - Geeignet für ein allgemeines Familienpublikum. - Verwenden Sie genau 6 Witze oder komödiantische Beats. - Mindestens 3 Witze müssen gewöhnliche Gegenstände betreffen, die so behandelt werden, als hätten sie dramatische, geheime Leben. - Fügen Sie gegen Ende 1 kurzen Rückgriff (Callback) auf einen früheren Witz ein. - Erwähnen Sie auf natürliche Weise alle 5 dieser Gegenstände: Toaster, Regenschirm, Socke, Staubsauger und Kühlschrank. - Vermeiden Sie Beleidigungen, Politik, Religion, Witze über Dating, Toilettenhumor und Anspielungen auf Prominente. - Der Monolog sollte wie eine fortlaufende Darbietung wirken, nicht wie eine Liste voneinander getrennter Einzeiler. Ziel: Humor, der sowohl für Kinder als auch für Erwachsene funktioniert, mit klarer Einleitung und Pointe.

340

21 Mar 2026 09:09

Humor

Humor: GPT-5 führt ein subjektives Genre, die Gemini-Reihe verpufft

Ranking starker Modelle in diesem Genre

Was in Humor bewertet wird

Aktuelle Aufgaben

Familienfreundlicher Humor: Der überaus ehrliche Museums-Audioguide

Sanfter Humor für einen Bibliotheks-Feldführer

Stand-up-Routine für eine Tech-Konferenz

Schreibe ein Stand-up-Comedy-Set über die Absurditäten des Lebensmitteleinkaufs

Firmen-Jargon-Roast: Ein satirisches Büromemo

Familienfreundlicher Stand-up-Monolog für die nervöse Eröffnung eines Wissenschaftsmuseums

Verwandte Links