Humor
ExperimentellVergleicht Originalität und Wirkung von Humor in einem noch experimentellen Genre.
In diesem Genre werden vor allem Faehigkeiten wie Humorwirkung, Originalitat, Koharenz betrachtet.
Anders als creative writing geht es hier direkter darum, ob ein Text fuer das Zielpublikum wirklich als Humor funktioniert.
Ein hoher Wert hier garantiert keine Sicherheit in sensiblen Situationen, keine Faktengenauigkeit und keinen professionellen Ton.
Wofuer starke Modelle in diesem Genre gut geeignet sind
Witze, leichte Copy, kleine Unterhaltung und Prompts mit komischem Ziel.
Was dieses Genre allein nicht zeigen kann
ob das Modell besser fuer ernste Anleitung, vorsichtigen Support oder exakte Business-Kommunikation geeignet ist.
Humor: GPT-5 führt ein subjektives Genre, die Gemini-Reihe verpufft
Anthropic
OpenAI
OpenAI
Durchschnittswert je Modell
Gewichtung
Über 31 bewertete Antworten wird die Spitze von GPT-5 und Opus angeführt. Claude Opus 4.8 (8,61) steht auf Platz 1 bei einer einzigen Stichprobe, daher ist der am besten belegte Spitzenreiter GPT-5 mini auf Platz 2: 8,16 über 4 Stichproben, mit 4 ersten Plätzen und 100 % Siegquote. GPT-5.4 (8,44, 75 % über 4) steht mit höherem Schnitt auf Platz 3, erneut bei der Siegquote überholt.
Anthropic ist gespalten: Claude Haiku 4.5 (7,64, 67 %) steht auf Platz 4 trotz eines niedrigeren Schnitts als Claude Sonnet 4.6 (8,24, 50 %) auf Platz 5 – eine Erinnerung daran, dass diese Bewertung das Gewinnen des Witzes im direkten Duell höher belohnt als einen geschliffenen Schnitt. GPT-5.5 (8,15) fällt auf Platz 6 bei einer einzigen Stichprobe ohne Siege.
Die Gemini-Reihe ist die klare Schwachstelle: 2.5 Pro (6,95), Flash (6,84) und Flash-Lite (6,42) weisen alle 0 % Siegquote auf und sind die einzigen Modelle unter 7. Da Humorwirkung mit 35 am höchsten gewichtet ist und Originalität mit 25, deutet der Abstand auf Witze hin, die seltener zünden – die am schwersten und subjektivsten zu messende Eigenschaft.
Humor ist von Natur aus subjektiv und die Stichproben reichen von 1 bis 5 je Modell, daher ist die Feinordnung als vorläufig zu lesen; wenige Prompts und der Geschmack eines einzigen Bewerters können jeden Schnitt verschieben. Die Spanne von 2,19 Punkten ist real, doch es sind bedingungsabhängige Messwerte, kein universelles Urteil über Witz.
Fazit
Für Humor ist GPT-5 mini die am besten begründbare Wahl (4 Stichproben, 4 erste Plätze, 100 % Siegquote), mit GPT-5.4 qualitativ nah dran. Die Gemini-Reihe landet in diesem subjektiven Genre durchgängig unter dem Rest.
Diese Analyse basiert auf den von Orivel gemessenen Benchmark-Werten fuer dieses Genre und wird regelmaessig aktualisiert. Die Werte sind bedingungsabhaengige Messungen, keine absolute Wahrheit.
Ranking starker Modelle in diesem Genre
Dieses Ranking ist nach dem Durchschnittsscore nur innerhalb dieses Genres sortiert.
Zuletzt aktualisiert: 31 May 2026 09:35
Siegesquote
Durchschnittsscore
Siegesquote
Durchschnittsscore
Siegesquote
Durchschnittsscore
Siegesquote
Durchschnittsscore
Siegesquote
Durchschnittsscore
Siegesquote
Durchschnittsscore
Siegesquote
Durchschnittsscore
Siegesquote
Durchschnittsscore
Siegesquote
Durchschnittsscore
| Gerankte Modelle |
|
|
Detail | ||||
|---|---|---|---|---|---|---|---|
| #1 | Claude Opus 4.8 NEU | Anthropic |
100%
|
86
|
1 | 1 | Bewertung und Punktzahl von Claude Opus 4.8 ansehen |
| #2 | GPT-5 mini | OpenAI |
100%
|
82
|
4 | 4 | Bewertung und Punktzahl von GPT-5 mini ansehen |
| #3 | GPT-5.4 | OpenAI |
75%
|
84
|
3 | 4 | Bewertung und Punktzahl von GPT-5.4 ansehen |
| #4 | Claude Haiku 4.5 | Anthropic |
67%
|
76
|
2 | 3 | Bewertung und Punktzahl von Claude Haiku 4.5 ansehen |
| #5 | Claude Sonnet 4.6 | Anthropic |
50%
|
82
|
2 | 4 | Bewertung und Punktzahl von Claude Sonnet 4.6 ansehen |
| #6 | GPT-5.5 | OpenAI |
0%
|
82
|
0 | 1 | Bewertung und Punktzahl von GPT-5.5 ansehen |
| #7 | Gemini 2.5 Pro |
0%
|
69
|
0 | 4 | Bewertung und Punktzahl von Gemini 2.5 Pro ansehen | |
| #8 | Gemini 2.5 Flash |
0%
|
68
|
0 | 5 | Bewertung und Punktzahl von Gemini 2.5 Flash ansehen | |
| #9 | Gemini 2.5 Flash-Lite |
0%
|
64
|
0 | 5 | Bewertung und Punktzahl von Gemini 2.5 Flash-Lite ansehen |
Was in Humor bewertet wird
Kriterien und Gewichte fuer dieses Genre-Ranking.
Humorwirkung
35.0%
Dieses Kriterium ist enthalten, um Humorwirkung in der Antwort zu pruefen. Es hat mehr Gewicht, weil dieser Teil das Gesamtergebnis in diesem Genre stark praegt.
Originalitat
25.0%
Dieses Kriterium ist enthalten, um Originalitat in der Antwort zu pruefen. Es hat ein klares Gewicht, weil es die Qualitaet sichtbar beeinflusst, auch wenn es nicht alles bestimmt.
Koharenz
15.0%
Dieses Kriterium ist enthalten, um Koharenz in der Antwort zu pruefen. Es ist leichter gewichtet, weil es das Hauptziel unterstuetzt, das Genre aber nicht allein definiert.
Klarheit
15.0%
Dieses Kriterium ist enthalten, um Klarheit in der Antwort zu pruefen. Es ist leichter gewichtet, weil es das Hauptziel unterstuetzt, das Genre aber nicht allein definiert.
Befolgung der Anweisungen
10.0%
Dieses Kriterium ist enthalten, um Befolgung der Anweisungen in der Antwort zu pruefen. Es ist leichter gewichtet, weil es das Hauptziel unterstuetzt, das Genre aber nicht allein definiert.
Aktuelle Aufgaben
Humor
Familienfreundlicher Humor: Der überaus ehrliche Museums-Audioguide
Schreiben Sie einen kurzen komödiantischen Dialog zwischen einem Museumsbesucher und einem ungewöhnlich ehrlichen Audioguide bei einer fiktiven Ausstellung namens „Alltägliche Gegenstände, die die Geschichte veränderten“. Der Besucher versucht, eine ernsthafte kulturelle Erfahrung zu machen, während der Audioguide immer wieder peinliche, lustige, aber durchaus plausible Hintergrundfakten über die Objekte offenbart. Enthalten Sie genau 10 Dialogzeilen, die zwischen Besucher und Audioguide abwechseln, beginnend mit Besucher. Halten Sie den Humor familienfreundlich, geistreich und für ein allgemeines Publikum geeignet. Verwenden Sie keine Beleidigungen, keine obszönen Wörter, keinen sexuellen Humor, keine Stereotype und keine Hinweise auf lebende reale Personen. Die letzte Zeile sollte als Pointe landen, die auf die erste Zeile zurückführt.
Humor
Sanfter Humor für einen Bibliotheks-Feldführer
Schreibe 10 humorvolle Feldführer-Einträge für gewöhnliche Gegenstände, die in einer öffentlichen Bibliothek zu finden sind, wie ein Heftgerät, ein Buchwagen, ein Drucker, ein Bibliotheksausweis, ein Bleistift oder ein Rückgabekasten. Jeder Eintrag muss einen erfundenen wissenschaftlichen Namen, ein beobachtbares Verhalten und einen sanften Witz enthalten. Der Humor sollte warmherzig, geistreich und sowohl für Erwachsene als auch für Kinder ab 10 Jahren geeignet sein. Vermeide gehässige Witze, Stereotype, Ekelhumor, sexuelle Anspielungen, Kraftausdrücke und aktuelle Popkultur-Referenzen. Halte jeden Eintrag auf 1 bis 2 Sätze, und sorge dafür, dass sich alle 10 Einträge unterschiedlich anfühlen, statt nur Varianten desselben Witzes zu sein.
Humor
Stand-up-Routine für eine Tech-Konferenz
Schreibe eine 2-minütige Stand-up-Comedy-Routine für einen Comedian, der auf einer großen Tech-Konferenz auftritt. Das Publikum besteht hauptsächlich aus Softwareingenieuren und Projektmanagern. Die Routine sollte sich auf die lustigen oder absurden Aspekte von Remote-Arbeit und den 'agilen' Entwicklungsmethoden konzentrieren. Der Ton sollte sarkastisch und beobachtend sein, aber letztlich gutmütig und für ein Unternehmensumfeld unbedenklich.
Humor
Schreibe ein Stand-up-Comedy-Set über die Absurditäten des Lebensmitteleinkaufs
Schreibe ein kurzes Stand-up-Comedy-Set (ca. 400–600 Wörter), vorgetragen von einem fiktiven Comedian bei einem Open-Mic-Abend. Das gesamte Set sollte sich um die alltäglichen Absurditäten des Lebensmitteleinkaufs drehen — vom Navigieren durch die Gänge über Selbstbedienungskassen bis hin zu den unausgesprochenen sozialen Regeln unter den Einkäufern. Anforderungen: 1. Das Set muss in der ersten Person geschrieben sein, so als würde es auf der Bühne gesprochen, einschließlich natürlicher Pausen, Signalen für Publikumsinteraktion oder Rückbezügen, die ein echter Comedian verwenden könnte. 2. Der Humor sollte beobachtend und nachvollziehbar sein — kein Schockhumor, keine derbe Sprache und keine gehässigen Witze, die sich gegen bestimmte Gruppen von Menschen richten. 3. Beinhaltet mindestens drei deutlich unterscheidbare Comedy-Bits (Mini-Themen) innerhalb des Themas Lebensmitteleinkauf, mit geschmeidigen Übergängen dazwischen. 4. Beende das Set mit einem starken Schlusswitz oder Rückbezug, der wieder auf etwas eingeht, das zuvor im Set erwähnt wurde. 5. Der Ton sollte passend für ein allgemeines erwachsenes Publikum sein (denken Sie an einen sauberen Comedy-Club-Abend).
Humor
Firmen-Jargon-Roast: Ein satirisches Büromemo
Schreiben Sie ein satirisches, internes Firmenmemo (ungefähr 300–500 Wörter) von einem fiktiven Middle Manager namens "Derek from Synergy Solutions", das eine neue, absurd überflüssige Unternehmensrichtlinie ankündigt. Das Memo sollte: 1. In übertriebenem Unternehmensjargon und mit Buzzwords verfasst sein (z. B. "synergize", "circle back", "leverage", "move the needle"). 2. Eine Richtlinie ankündigen, die wichtig klingt, bei näherer Betrachtung jedoch völlig sinnlos oder kontraproduktiv ist. 3. Während des gesamten Textes einen todernsten, nüchternen Ton beibehalten — der Humor sollte aus dem Kontrast zwischen der formellen Darbietung und dem lächerlichen Inhalt entstehen. 4. Mindestens ein erfundenes Akronym oder einen Initiativnamen enthalten, der plausibel klingt. 5. Mit einer Signaturzeile enden, die einen letzten komischen Akzent setzt. Das Memo sollte für jede Person, die in einer Firmenbüroumgebung gearbeitet hat, lustig sein, dabei aber arbeitsplatzgeeignet bleiben (keine Obszönitäten, keine Angriffe auf geschützte Gruppen, kein boshaftes Verhalten gegenüber echten Firmen oder Personen).
Humor
Familienfreundlicher Stand-up-Monolog für die nervöse Eröffnung eines Wissenschaftsmuseums
Schreiben Sie einen familienfreundlichen, originellen Stand-up-Monolog von 220 bis 320 Wörtern für einen Moderator, der eine neue Ausstellung in einem Wissenschaftsmuseum über alltägliche Haushaltsgegenstände eröffnet. Das Publikum ist gemischt: Kinder ab 10 Jahren, Eltern, Lehrkräfte und lokale Förderer. Der Sprecher ist etwas nervös, versucht aber, selbstbewusst und charmant zu wirken. Erforderliche Vorgaben: - Geeignet für ein allgemeines Familienpublikum. - Verwenden Sie genau 6 Witze oder komödiantische Beats. - Mindestens 3 Witze müssen gewöhnliche Gegenstände betreffen, die so behandelt werden, als hätten sie dramatische, geheime Leben. - Fügen Sie gegen Ende 1 kurzen Rückgriff (Callback) auf einen früheren Witz ein. - Erwähnen Sie auf natürliche Weise alle 5 dieser Gegenstände: Toaster, Regenschirm, Socke, Staubsauger und Kühlschrank. - Vermeiden Sie Beleidigungen, Politik, Religion, Witze über Dating, Toilettenhumor und Anspielungen auf Prominente. - Der Monolog sollte wie eine fortlaufende Darbietung wirken, nicht wie eine Liste voneinander getrennter Einzeiler. Ziel: Humor, der sowohl für Kinder als auch für Erwachsene funktioniert, mit klarer Einleitung und Pointe.