ロールプレイ
役になりきる一貫性や自然な会話力を比較します。
このジャンルでは、主に キャラの一貫性、自然さ、指示遵守 のような力を見ようとしています。
共感やカウンセリングよりも、役になりきれるか、自然な会話が続くかを強く見ているジャンルです。
ここで高得点でも、事実の正確さや安全な助言、分析タスクへの強さまで保証されるわけではありません。
このジャンルで強いAIが向いている用途
キャラクターチャット、シミュレーション、ロールベースの対話体験です。
このジャンルだけでは判断しきれないこと
調査、コーディング、慎重な支援会話の適性までは分かりません。
ロールプレイ:Claude Sonnet 4.6がペルソナ一貫性で圧倒
Anthropic
OpenAI
OpenAI
モデル別の平均スコア
評価の重み付け
ロールプレイは全33件の採点にもとづき、サイト内でも最も明快な結果の一つだ。1位はClaude Sonnet 4.6で、最高平均(8.61)かつ最良の証拠(6サンプル・6回1位・勝率100%)。最高品質と完璧な対戦成績を兼ねるのはこのモデルだけで、1サンプルのまぐれではない確かな筆頭だ。
その後ろは混戦。2位はGPT-5 mini(7.82・勝率67%)で、平均はGPT-5.4(8.43・50%、3位)より低いが、ここでも勝率が順位を決める。Claude Haiku 4.5(8.06)とGemini 2.5 Pro(8.04)は品質で僅差につけるが、対戦では勝ち星が少ない。
このジャンルはPersona Consistency(重み30)を最重視し、NaturalnessとInstruction Followingが各20。役を確実に保つことを評価する。これがAnthropicを上位に押し上げ、GPT-5.5(2サンプルで7.61・勝率0%)や軽量Gemini帯(Flash 7.15、Flash-Lite 6.93)が苦戦する理由を説明する。役からの逸脱やキャラ崩れが多いのだ。
各モデルのサンプルは2〜6件で、首位は裏付けが厚いものの中位の順位は暫定で数件の出題で入れ替わりうる。1.69点の差は実体があるが、これはロールプレイ出題の条件依存の測定値であり、普遍的な断定ではない。
結論
ロールプレイなら、このジャンル最大サンプル(6)で勝率100%かつ最高平均を兼ねるClaude Sonnet 4.6が明確な筆頭。軽量Gemini帯は役を保つのが最も苦手。
この分析は Orivel がこのジャンルで実測したベンチマークスコアをもとに生成し、定期的に更新しています。スコアは条件依存の測定値であり、絶対評価ではありません。
このジャンルに強いモデルランキング
このランキングは当ジャンルに限定したスコアの平均順です。
最終更新: 2026/05/28 09:38
勝率
平均スコア
勝率
平均スコア
勝率
平均スコア
勝率
平均スコア
勝率
平均スコア
勝率
平均スコア
勝率
平均スコア
勝率
平均スコア
| モデル |
|
|
詳細 | ||||
|---|---|---|---|---|---|---|---|
| 1位 | Claude Sonnet 4.6 | Anthropic |
100%
|
86
|
6 | 6 | Claude Sonnet 4.6 の評価・スコアを見る |
| 2位 | GPT-5 mini | OpenAI |
67%
|
78
|
2 | 3 | GPT-5 mini の評価・スコアを見る |
| 3位 | GPT-5.4 | OpenAI |
50%
|
84
|
2 | 4 | GPT-5.4 の評価・スコアを見る |
| 4位 | Claude Haiku 4.5 | Anthropic |
33%
|
81
|
2 | 6 | Claude Haiku 4.5 の評価・スコアを見る |
| 5位 | Gemini 2.5 Pro |
25%
|
80
|
1 | 4 | Gemini 2.5 Pro の評価・スコアを見る | |
| 6位 | GPT-5.5 | OpenAI |
0%
|
76
|
0 | 2 | GPT-5.5 の評価・スコアを見る |
| 7位 | Gemini 2.5 Flash |
0%
|
71
|
0 | 4 | Gemini 2.5 Flash の評価・スコアを見る | |
| 8位 | Gemini 2.5 Flash-Lite |
0%
|
69
|
0 | 4 | Gemini 2.5 Flash-Lite の評価・スコアを見る |
このジャンルで評価している項目
このジャンルで使っている採点基準と重みです。
キャラの一貫性
30.0%
この項目は、回答の キャラの一貫性 を確かめるために入れています。 比重が重いのは、この部分が弱いとジャンル全体の評価が崩れやすいからです。
自然さ
20.0%
この項目は、回答の 自然さ を確かめるために入れています。 比重がしっかりあるのは、全体の良し悪しに目に見えて効いてくる項目だからです。
指示遵守
20.0%
この項目は、回答の 指示遵守 を確かめるために入れています。 比重がしっかりあるのは、全体の良し悪しに目に見えて効いてくる項目だからです。
創造性
15.0%
この項目は、回答の 創造性 を確かめるために入れています。 比重をやや軽くしているのは、重要ではあるものの、このジャンルの中心そのものではないからです。
分かりやすさ
15.0%
この項目は、回答の 分かりやすさ を確かめるために入れています。 比重をやや軽くしているのは、重要ではあるものの、このジャンルの中心そのものではないからです。
最新のお題
ロールプレイ
カスタマーサービスのロールプレイ:不満を抱えたゲーマー
あなたはNexus Gamesのカスタマーサービス担当者で、名前はAlexです。あなたのペルソナは、落ち着いていて、共感的で、知識が豊富です。会社のポリシーを順守しなければなりませんが、同時に状況を沈静化し、可能であれば顧客をつなぎとめるよう努めてください。 苛立ったプレイヤー『ShadowSlayer_99』が、ライブチャットでたった今あなたに次のメッセージを送ってきました。役になりきって返答してください。 **ShadowSlayer_99:** これはひどすぎる! 私のAetherium Chroniclesのアカウントが7日間停止された! このゲームには何百ドルも使ってるんだぞ。メールには「未承認のサードパーティ製ソフトウェア」が理由だと書いてある。私はただキャラクターの鎧の色を変える簡単なMODを使っていただけだ。それで有利になるわけじゃない! これは間違いだし、今すぐ私のアカウント停止を解除しろ。でなければ、今まで買ったもの全部の全額返金を要求するし、チャージバックもする。
ロールプレイ
尾行されているときのノワール探偵の助言
あなたは1940年代のノワール映画からそのまま抜け出してきたような私立探偵、マイルズ・コリガン。あなたの事務所は薄暗く、古くなったコーヒーと雨に濡れた街路の匂いが漂っている。あなたはシニカルで、世慣れていて、あらゆるものを見てきた。今しがた、神経質な依頼人からメッセージが届いた。ハードボイルドな人物像を保ちながら、実用的で安全な助言を与えつつ、役になりきって返答しなさい。 これがそのメッセージだ: "探偵さん、助けが必要なんです。誰かにつけられている気がします。ここ3日間、仕事からの帰り道で、同じ黒っぽいセダンを見かけています。家のドアの前までずっとついてくるわけではありませんが、数ブロックのあいだ、いつもいるんです。本当にだんだんパニックになってきています。どうすればいいでしょうか?"
ロールプレイ
冷静で有能なITサポート担当者としてロールプレイ
あなたはAlexです。大企業で働く、親しみやすく有能なITサポート担当者です。あなたの目標は、社員の技術的な問題に対して冷静で安心させる方法で対応することです。今、苛立っている社員Jamieからの以下の社内サポートチケットに返信する必要があります。 **Jamieのチケット:** 件名: 緊急 - 私のコンピュータが文鎮です 私のノートパソコンがとにかく遅くてほとんど使い物になりません。2時間後に大きなプロジェクトの締め切りがあるのに何もできません。デザインソフトを開くたびにフリーズします。再起動は何百万回も試したくらい試しました。これは大惨事です。今すぐこれを直してほしいです。 --- Alexとして返信を作成してください。あなたの返信は次のことを満たす必要があります: 1. Jamieの緊急性とフラストレーションを共感的に認めること。 2. 冷静で忍耐強く、有能なIT担当者というあなたのペルソナを維持すること。 3. 問題を診断するために、具体的で分かりやすい確認質問をすること。 4. 調査を進める間にJamieが試せる、簡単で即効性のあるトラブルシューティング手順を1つか2つ提案すること。 5. サポートプロセスの次のステップについて明確な期待値を伝えること。
ロールプレイ
ホテルのフロント係が深夜のオーバーブッキングに対応する
あなたは空港近くの中級ホテルで夜勤のフロント係です。演じ続け、ゲストに対して実際に言うであろうことだけを書いてください。 状況:午後11時45分です。疲れたゲストがフロントに近づき、こう言います: "今夜の予約はMaya Chen名義で確認済みですが、御社のアプリでは部屋が割り当てられていないと出ます。明朝8時に重要なプレゼンがあり、静かなキングルームを指定して予約したのに、ロビーで一晩中やり合っている時間はありません。何とかしてください。" あなたの応答は、対面で話す実際のホテル従業員の口調であるべきです。適切に謝罪し、ゲストを責めずに状況を説明し、実用的な次の対応策を提示してください。静かなキングルームは空いていません。次の選択肢があります: - 上階のエレベーター近くにあるダブルルームが1室 - 提携ホテル(車で12分)への振替、タクシー代は当ホテルが負担 - ご希望なら今夜分の返金とキャンセルの無償対応 制約: - 記載されている以外の選択肢を作り出さないでください。 - 記載されていないアップグレード、補償、設備を約束しないでください。 - 共感的かつプロフェッショナルに対応してください。ただし台本めいた言い方は避けてください。 - 文量は170語以内に収めてください。 - 箇条書きや動作の指示(舞台指示)は使用しないでください。
ロールプレイ
夜勤薬剤師による薬剤取り違えへの対応
あなたは夜勤を担当する経験豊富な病院薬剤師になりきっています。心配している新人看護師があなたにメッセージを送ってきます: 「10分前に患者さんに誤った薬を投与してしまったかもしれません。処方は経口 metoprolol 25 mg だったのに、引き出しで名前が似ていたため誤って経口 methimazole 25 mg を投与してしまいました。患者は意識があり、今のところ大丈夫だと言っています。カルテには、入院は心房細動(rapid ventricular response)で、既往歴に甲状腺機能亢進症が記載されています。私はパニックになっていて、問題になりたくありません。今すぐ何をすべきですか?」 薬剤師として役になりきって返答してください。あなたの返答は、看護師への冷静で有能なリアルタイムのメッセージのように聞こえるべきで、一般的な論文のようになってはいけません。即時の臨床上の優先事項に対処し、看護師の恐怖にも専門的に対応してください。提供されていない情報へのアクセスを捏造しないでください。何か不確かな点があれば、確認すべき事項を述べてください。最終的な診断を与えないでください。
ロールプレイ
恐竜専門家のロールプレイ: 若い古生物学者の育成
あなたはDr. Aris Thorne、著名なGrand Valley Museum of Natural Historyの古生物学の主任学芸員です。あなたは深い知識と、科学を一般の人々にわかりやすく伝える情熱で知られています。親御さんから次のメールを受け取りました。役柄を保ったまま、その親御さんに返信してください。あなたの返答は役立つ内容で、励ましに満ち、経験豊富な博物館学芸員としての専門知識と個性が反映されているべきです。