Orivel Orivel
Menue oeffnen

Rollenspiel

Vergleicht Rollenkonsistenz, Natürlichkeit und Qualität der Antworten im Rollenspiel.

In diesem Genre werden vor allem Faehigkeiten wie Rollenkonsistenz, Naturlichkeit, Befolgung der Anweisungen betrachtet.

Anders als empathy oder counseling geht es hier staerker darum, in einer Rolle konsistent und natuerlich zu bleiben.

Ein hoher Wert hier garantiert weder Faktentreue noch sicheres Beraten oder besondere Staerke bei Analyseaufgaben.

Wofuer starke Modelle in diesem Genre gut geeignet sind

Charakter-Chat, Simulationen und Assistenten mit klarer Persona.

Was dieses Genre allein nicht zeigen kann

ob das Modell besser fuer Recherche, Coding oder sensiblen Support geeignet ist.

Datenanalyse

Rollenspiel: Claude Sonnet 4.6 dominiert die Rollenkonsistenz

33 bewertete Antworten Rollenspiel Aktualisiert 2026/6/7
1
Claude Sonnet 4.6

Anthropic

86
Durchschnitt
100%
Siegesquote
6× 1. Platz 6 Stichproben
2
GPT-5 mini

OpenAI

78
Durchschnitt
67%
Siegesquote
2× 1. Platz 3 Stichproben
3
GPT-5.4

OpenAI

84
Durchschnitt
50%
Siegesquote
2× 1. Platz 4 Stichproben

Durchschnittswert je Modell

1 Claude Sonnet 4.6
8.61
2 GPT-5 mini
7.82
3 GPT-5.4
8.43
4 Claude Haiku 4.5
8.06
5 Gemini 2.5 Pro
8.04
6 GPT-5.5
7.61
7 Gemini 2.5 Flash
7.15
8 Gemini 2.5 Flash-Lite
6.93

Gewichtung

Rollenkonsistenz 30% Naturlichkeit 20% Befolgung der Anweisungen 20% Kreativitat 15% Klarheit 15%

Über 33 bewertete Antworten ist dies eines der klarsten Ergebnisse der Seite: Claude Sonnet 4.6 steht auf Platz 1 mit dem höchsten Schnitt (8,61) und der besten Evidenz (6 Stichproben, 6 erste Plätze, 100 % Siegquote). Kein anderes Modell verbindet hier Spitzenqualität mit einer makellosen Duellbilanz, was Sonnet 4.6 zur herausragenden Wahl macht und nicht zum Zufall einer einzigen Stichprobe.

Dahinter ist das Feld gemischt. GPT-5 mini steht auf Platz 2 (7,82, 67 % Siegquote) trotz eines niedrigeren Schnitts als GPT-5.4 (8,43, 50 %) auf Platz 3 – erneut, weil die Siegquote die Reihenfolge bestimmt. Claude Haiku 4.5 (8,06) und Gemini 2.5 Pro (8,04) liegen qualitativ dicht dahinter, gewinnen aber weniger Schlagabtausche.

Dieses Genre gewichtet Rollenkonsistenz mit 30 am höchsten, mit Natürlichkeit und Anweisungstreue (je 20), und belohnt damit verlässliches Bleiben in der Rolle. Das begünstigt Anthropic an der Spitze und erklärt mit, warum GPT-5.5 (7,61, zwei Stichproben, 0 % Siegquote) und die leichten Gemini-Klassen (Flash 7,15, Flash-Lite 6,93) schwächeln: Sie weichen häufiger von der Rolle ab oder brechen sie.

Die Stichproben reichen von 2 bis 6 je Modell, daher ist das Spitzenergebnis zwar gut belegt, die Reihenfolge im Mittelfeld aber vorläufig, und wenige Prompts können sie umordnen. Die Spanne von 1,69 Punkten ist real, doch es sind bedingungsabhängige Messwerte für Rollenspiel-Prompts, kein universelles Urteil.

Fazit

Für Rollenspiel ist Claude Sonnet 4.6 die klare Wahl und verbindet den höchsten Schnitt mit 100 % Siegquote über die größte Stichprobe dieses Genres (6). Die leichten Gemini-Klassen halten die Rolle am schlechtesten durch.

Diese Analyse basiert auf den von Orivel gemessenen Benchmark-Werten fuer dieses Genre und wird regelmaessig aktualisiert. Die Werte sind bedingungsabhaengige Messungen, keine absolute Wahrheit.

Ranking starker Modelle in diesem Genre

Dieses Ranking ist nach dem Durchschnittsscore nur innerhalb dieses Genres sortiert.

Zuletzt aktualisiert: 28 May 2026 09:38

#1
Claude Sonnet 4.6 Anthropic

Siegesquote

100%

Durchschnittsscore

86
#2
GPT-5 mini OpenAI

Siegesquote

67%

Durchschnittsscore

78
#3
GPT-5.4 OpenAI

Siegesquote

50%

Durchschnittsscore

84
#4
Claude Haiku 4.5 Anthropic

Siegesquote

33%

Durchschnittsscore

81
#5
Gemini 2.5 Pro Google

Siegesquote

25%

Durchschnittsscore

80
#6
GPT-5.5 OpenAI

Siegesquote

0%

Durchschnittsscore

76
#7
Gemini 2.5 Flash Google

Siegesquote

0%

Durchschnittsscore

71
#8
Gemini 2.5 Flash-Lite Google

Siegesquote

0%

Durchschnittsscore

69

Was in Rollenspiel bewertet wird

Kriterien und Gewichte fuer dieses Genre-Ranking.

Rollenkonsistenz

30.0%

Dieses Kriterium ist enthalten, um Rollenkonsistenz in der Antwort zu pruefen. Es hat mehr Gewicht, weil dieser Teil das Gesamtergebnis in diesem Genre stark praegt.

Naturlichkeit

20.0%

Dieses Kriterium ist enthalten, um Naturlichkeit in der Antwort zu pruefen. Es hat ein klares Gewicht, weil es die Qualitaet sichtbar beeinflusst, auch wenn es nicht alles bestimmt.

Befolgung der Anweisungen

20.0%

Dieses Kriterium ist enthalten, um Befolgung der Anweisungen in der Antwort zu pruefen. Es hat ein klares Gewicht, weil es die Qualitaet sichtbar beeinflusst, auch wenn es nicht alles bestimmt.

Kreativitat

15.0%

Dieses Kriterium ist enthalten, um Kreativitat in der Antwort zu pruefen. Es ist leichter gewichtet, weil es das Hauptziel unterstuetzt, das Genre aber nicht allein definiert.

Klarheit

15.0%

Dieses Kriterium ist enthalten, um Klarheit in der Antwort zu pruefen. Es ist leichter gewichtet, weil es das Hauptziel unterstuetzt, das Genre aber nicht allein definiert.

Aktuelle Aufgaben

Rollenspiel

OpenAI GPT-5.5 VS Anthropic Claude Sonnet 4.6

Kundendienst-Rollenspiel: Der frustrierte Gamer

Du bist ein Kundendienstmitarbeiter für Nexus Games mit dem Namen Alex. Deine Persona ist ruhig, einfühlsam und sachkundig. Du musst die Firmenrichtlinien einhalten, solltest aber auch versuchen, die Situation zu deeskalieren und den Kunden, wenn möglich, zu halten. Ein frustrierter Spieler, 'ShadowSlayer_99', hat dir gerade die folgende Nachricht über den Live-Chat gesendet. Antworte ihm in der Rolle. **ShadowSlayer_99:** Das ist empörend! Mein Aetherium Chronicles-Konto wurde gerade für 7 Tage gesperrt! Ich habe Hunderte von Dollar für dieses Spiel ausgegeben. Die E-Mail sagt, es sei wegen 'nicht autorisierter Software von Drittanbietern'. Ich habe nur ein einfaches Mod verwendet, um die Farbe der Rüstung meines Charakters zu ändern. Das verschafft mir doch keinen Vorteil! Das ist ein Fehler und ihr müsst mein Konto SOFORT wieder entsperren oder ich verlange eine vollständige Rückerstattung für alles, was ich jemals gekauft habe, und ich werde eine Rückbuchung veranlassen.

149
28 May 2026 09:38

Rollenspiel

OpenAI GPT-5.5 VS Anthropic Claude Opus 4.7

Der Rat eines Noir-Detektivs, wenn man verfolgt wird

Du bist Detective Miles Corrigan, ein Privatdetektiv wie aus einem Noir-Film der 1940er Jahre. Dein Büro ist schummrig beleuchtet und riecht nach abgestandenem Kaffee und regengetränkten Straßen. Du bist zynisch, weltmüde und hast schon alles gesehen. Ein nervöser Klient hat dir gerade eine Nachricht geschickt. Antworte ihm in der Rolle, biete praktische, sichere Ratschläge an und bewahre dabei deine hartgesottene Persona. Hier ist ihre Nachricht: "Detective, I need your help. I think I'm being followed. For the past three days, I've seen the same dark sedan on my route home from work. It doesn't follow me all the way to my door, but it's always there for a few blocks. I'm really starting to panic. What should I do?"

301
26 Apr 2026 09:37

Rollenspiel

Anthropic Claude Opus 4.7 VS OpenAI GPT-5.2

Rollenspiel als ruhiger und kompetenter IT-Support-Spezialist

Du bist Alex, ein freundlicher und kompetenter IT-Support-Spezialist in einem großen Unternehmen. Dein Ziel ist es, Mitarbeiterinnen und Mitarbeitern bei ihren technischen Problemen auf ruhige und beruhigende Weise zu helfen. Du sollst auf das folgende interne Support-Ticket eines frustrierten Mitarbeiters namens Jamie antworten. **Jamies Ticket:** Subject: DRINGEND - MEIN LAPTOP IST NUR NOCH UNBRAUCHBAR Mein Laptop läuft so langsam, dass er praktisch nutzlos ist. Ich habe eine wichtige Projekt-Abgabefrist in zwei Stunden und kann nichts erledigen. Jedes Mal, wenn ich die Design-Software öffne, friert sie einfach ein. Ich habe versucht, ihn wie eine Million Mal neu zu starten. Das ist eine Katastrophe. Ich brauche das JETZT behoben. --- Formuliere eine Antwort als Alex. Deine Antwort sollte: 1. Erkenne Jamies Dringlichkeit und Frustration einfühlsam an. 2. Bewahre deine Rolle als ruhiger, geduldiger und kompetenter IT-Spezialist. 3. Stelle spezifische, leicht verständliche klärende Fragen zur Diagnose des Problems. 4. Schlage ein oder zwei einfache, sofort umsetzbare Schritte zur Fehlerbehebung vor, die Jamie versuchen kann, während du weiter untersuchst. 5. Setze klare Erwartungen für die nächsten Schritte im Support-Prozess.

338
19 Apr 2026 05:49

Rollenspiel

Google Gemini 2.5 Flash VS Anthropic Claude Haiku 4.5

Mitarbeiter/in an der Hotelrezeption regelt Überbuchung spät in der Nacht

Sie sind die Nacht-Rezeptionistin/der Nacht-Rezeptionist in einem Mittelklassehotel in Flughafennähe. Bleiben Sie in der Rolle und schreiben Sie nur, was Sie dem Gast sagen würden. Situation: Es ist 23:45. Ein müder Gast kommt zur Rezeption und sagt: "Ich habe eine bestätigte Reservierung für heute Nacht auf den Namen Maya Chen, aber Ihre App zeigt jetzt kein zugewiesenes Zimmer. Ich habe um 8:00 Uhr eine wichtige Präsentation, ich habe ausdrücklich ein ruhiges King-Zimmer gebucht, und ich kann die Nacht nicht damit verbringen, in einer Lobby zu streiten. Regeln Sie das." Ihre Antwort sollte wie eine echte Hotelmitarbeiterin/ein echter Hotelmitarbeiter klingen, die/der von Angesicht zu Angesicht spricht. Entschuldigen Sie sich angemessen, erklären Sie die Lage, ohne dem Gast die Schuld zu geben, und bieten Sie praktische nächste Schritte an. Ein ruhiges King-Zimmer steht nicht zur Verfügung. Sie haben jedoch diese Optionen: - ein Doppelzimmer in einer höheren Etage in der Nähe des Aufzugs - Umbuchung in ein Partnerhotel, 12 Minuten entfernt, Taxikosten übernimmt unser Hotel - falls gewünscht, Rückerstattung für die heutige Nacht und kostenfreie Stornierung Einschränkungen: - Erfinden Sie keine Optionen, die über die aufgeführten hinausgehen. - Versprechen Sie keine Upgrades, Entschädigungen oder Leistungen, die nicht aufgeführt wurden. - Seien Sie einfühlsam und professionell, aber nicht abgelesen. - Beschränken Sie sich auf 170 Wörter oder weniger. - Verwenden Sie keine Aufzählungszeichen oder Regieanweisungen.

363
29 Mar 2026 10:56

Rollenspiel

Google Gemini 2.5 Pro VS Anthropic Claude Sonnet 4.6

Nachtschichtapotheker: Umgang mit einer Medikamentenverwechslung

Du spielst die Rolle eines erfahrenen Krankenhausapothekers, der die Nachtschicht übernimmt. Eine besorgte junge Krankenschwester schreibt dir: "Ich glaube, ich habe vor 10 Minuten einem Patienten das falsche Medikament gegeben. Die Verordnung war Metoprolol 25 mg oral, aber ich habe versehentlich Methimazol 25 mg oral gegeben, weil die Namen in der Schublade ähnlich aussahen. Der Patient ist wach und sagt, dass er sich gerade gut fühlt. In der Akte steht, dass er wegen Vorhofflimmern mit schneller ventrikulärer Reaktion aufgenommen wurde, und in der Vorgeschichte ist außerdem eine Hyperthyreose vermerkt. Ich gerate in Panik und möchte keinen Ärger bekommen. Was soll ich jetzt tun?" Antworte in der Rolle des Apothekers. Deine Antwort sollte wie eine ruhige, kompetente Echtzeit-Nachricht an die Krankenschwester klingen, nicht wie ein generischer Aufsatz. Sie sollte sowohl die unmittelbaren klinischen Prioritäten ansprechen als auch die Angst der Krankenschwester professionell behandeln. Erfinde keinen Zugang zu Fakten, die nicht angegeben wurden. Wenn etwas unsicher ist, sage, was überprüft werden sollte. Gib keine endgültige Diagnose.

349
29 Mar 2026 10:50

Rollenspiel

OpenAI GPT-5.2 VS Anthropic Claude Haiku 4.5

Dinosaurier-Experten-Rollenspiel: Einen jungen Paläontologen fördern

Sie sind Dr. Aris Thorne, der leitende Kurator für Paläontologie am renommierten Grand Valley Museum of Natural History. Sie sind bekannt für Ihr tiefes Wissen und Ihre Leidenschaft dafür, Wissenschaft der Öffentlichkeit zugänglich zu machen. Sie haben gerade die folgende E-Mail von einem Elternteil erhalten. Antworten Sie in der Rolle. Ihre Antwort sollte hilfreich, ermutigend und Ihre Expertise und Persönlichkeit als erfahrener Museums-Kurator widerspiegeln.

349
29 Mar 2026 03:26

Verwandte Links

X f L