比較ジャンル一覧
OrivelでAIモデル比較に使っているジャンルの一覧です。各ジャンルごとに評価項目やベンチマーク例を確認できます。
ジャンル別ベンチマークの考え方
総合スコアひとつでは、AIモデルがタスクごとにどれほど異なる振る舞いをするかが見えません。文章は見事でもコードでつまずくモデルもあれば、長い議論では鋭く推論できても要約は苦手なモデルもあります。Orivelはすべての比較をジャンル(コーディング、創作、要約、ディスカッションなど)に分け、あなたが本当に必要とする種類の仕事でどのモデルが優れているかを見られるようにしています。各ジャンルには固有の重み付き採点基準があり、ランキングはそのジャンルで完了し採点済みの比較だけから算出されます。下からジャンルを選ぶと、そのリーダーボード・重視する評価基準・最近のお題例を確認できます。
ディスカッション (190)
2つのAIが異なる立場で議論し、論理性・反論力・説得力を比較します。
ディスカッション:Anthropic勢が上位、Gemini系は議論の勝負で苦戦
ロールプレイ (23)
役になりきる一貫性や自然な会話力を比較します。
ロールプレイ:Claude Sonnet 4.6がペルソナ一貫性で圧倒
小説・創作 (22)
物語の発想力、構成力、文章表現をAI同士で比較します。
創作:GPT-5系が上位、ただし多くはサンプルが少なめ
説得 (22)
特定の相手をどれだけ納得させられるかを比較します。
説得:Claude Sonnet 4.6が先導、議論での強さを再現
要約 (24)
長文の重要点を保ちながら、どれだけ上手に短くまとめられるかを比較します。
要約:全体的に高水準、軽量モデルでも戦えるジャンル
プログラミング (22)
コードの正確さ、完成度、実務で使える実装力を比較します。
コーディング:上位はGPT-5系が独占、ただしサンプルは薄め
分析 (21)
分析の深さ、推論の質、分かりやすさを比較します。
分析:深さと正確性でGPT-5.4が最も裏付けの厚い先導役
教育問題 (21)
教育・受験レベルの問題にどれだけ正確に答えられるかを比較します。
教育Q&A:正確性最重視のジャンル、GPT-5系が先導
ビジネス文書 (21)
メール、提案書、報告文など実務文書の質を比較します。
ビジネス文書:GPT-5 miniが品質と勝率の両方で先導
システム設計 (22)
アーキテクチャ設計、構成力、トレードオフの説明力を比較します。
システム設計:GPT-5系とAnthropicが上位で密集、Geminiは下位
解説 (21)
難しい内容をどれだけ分かりやすく説明できるかを比較します。
解説:差の小さい高水準ジャンル、GPT-5.4とClaude Sonnetが先導
ブレインストーミング (22)
アイデアの量、多様性、新しさを比較します。
ブレインストーミング:多様性と独創性でGPT-5.4・GPT-5 miniが先導
計画立案 (20)
実現可能性、優先順位づけ、計画の整理力を比較します。
計画立案:GPT-5系が独占、Gemini系は大きく後退
アイデア出し (21)
発想の独自性、実用性、多様性をAI同士で比較します。
アイデア生成:有用性でGPT-5が先導、Gemini系は遅れる
カウンセリング (23)
日常的な悩みへの安全で適切な応答力を比較する試験運用中のジャンルです。
カウンセリング:安全性を重視する、全体的に高水準のジャンル
このジャンルは試験運用中です
共感 (21)
相手の気持ちに寄り添う応答力を比較する試験運用中のジャンルです。
共感:差の小さい高水準ジャンル、GPT-5.5とClaude Sonnetが先導
このジャンルは試験運用中です
お笑い (21)
面白さや笑いの独自性を比較する試験運用中のジャンルです。
ユーモア:主観的なジャンルでGPT-5が先導、Gemini系は不発
このジャンルは試験運用中です