分析
分析ジャンルにおけるAIモデルの比較結果を確認できます。評価基準、ランキング、最新のベンチマーク例をまとめています。
ジャンル概要
分析の深さ、推論の質、分かりやすさを比較します。
このジャンルでは、主に 深さ、正確さ、推論の質 のような力を見ようとしています。
解説ジャンルよりも、証拠や選択肢を読んで、理由つきの結論まで持っていけるかを重視しています。
ここで高得点でも、短く整った文章、ユーモア、実装の細部まで強いとは限りません。
このジャンルで強いAIが向いている用途
選択肢比較、意思決定支援、リスク整理、論点分析です。
このジャンルだけでは判断しきれないこと
コード実装力、洗練された業務文書、自由発想の量までは判断できません。
このジャンルに強いモデルランキング
このランキングは当ジャンルに限定したスコアの平均順です。
最終更新: 2026/03/29 12:05
勝率
平均スコア
勝率
平均スコア
勝率
平均スコア
勝率
平均スコア
勝率
平均スコア
勝率
平均スコア
勝率
平均スコア
勝率
平均スコア
勝率
平均スコア
| モデル |
|
|
詳細 | ||||
|---|---|---|---|---|---|---|---|
| 1位 | GPT-5.4 | OpenAI |
100%
|
87
|
4 | 4 | GPT-5.4 の評価・スコアを見る |
| 2位 | GPT-5.2 | OpenAI |
100%
|
87
|
4 | 4 | GPT-5.2 の評価・スコアを見る |
| 3位 | Claude Opus 4.6 | Anthropic |
75%
|
87
|
3 | 4 | Claude Opus 4.6 の評価・スコアを見る |
| 4位 | GPT-5 mini | OpenAI |
75%
|
83
|
3 | 4 | GPT-5 mini の評価・スコアを見る |
| 5位 | Claude Sonnet 4.6 | Anthropic |
60%
|
83
|
3 | 5 | Claude Sonnet 4.6 の評価・スコアを見る |
| 6位 | Claude Haiku 4.5 | Anthropic |
50%
|
83
|
2 | 4 | Claude Haiku 4.5 の評価・スコアを見る |
| 7位 | Gemini 2.5 Flash-Lite |
0%
|
76
|
0 | 5 | Gemini 2.5 Flash-Lite の評価・スコアを見る | |
| 8位 | Gemini 2.5 Flash |
0%
|
76
|
0 | 5 | Gemini 2.5 Flash の評価・スコアを見る | |
| 9位 | Gemini 2.5 Pro |
0%
|
73
|
0 | 3 | Gemini 2.5 Pro の評価・スコアを見る |
このジャンルで評価している項目
このジャンルで使っている採点基準と重みです。
深さ
25.0%
この項目は、回答の 深さ を確かめるために入れています。 比重が重いのは、この部分が弱いとジャンル全体の評価が崩れやすいからです。
正確さ
25.0%
この項目は、回答の 正確さ を確かめるために入れています。 比重がしっかりあるのは、全体の良し悪しに目に見えて効いてくる項目だからです。
推論の質
20.0%
この項目は、回答の 推論の質 を確かめるために入れています。 比重がしっかりあるのは、全体の良し悪しに目に見えて効いてくる項目だからです。
構成
15.0%
この項目は、回答の 構成 を確かめるために入れています。 比重をやや軽くしているのは、重要ではあるものの、このジャンルの中心そのものではないからです。
分かりやすさ
15.0%
この項目は、回答の 分かりやすさ を確かめるために入れています。 比重をやや軽くしているのは、重要ではあるものの、このジャンルの中心そのものではないからです。
最新のお題
分析
都市交通政策分析
架空都市リバーベンドについて、提案されている3つの交通政策を分析しなさい。提供された文脈に基づき、この都市の長期的な将来にとって最善の政策を推奨しなさい。分析では、費用、環境への影響、市民の受容性、渋滞緩和の有効性といった主要な要因にわたって各選択肢を比較すること。最後の推奨は、明確で根拠に基づく論拠によって正当化しなさい。
分析
最も効果的な学校出席介入を選択する
公立中学校が、来学年度に慢性的欠席を減らすためのパイロットプログラムを1件資金提供する予算を持っています。ここでの慢性的欠席は、授業日の10%以上を欠席することと定義します。学校は600人の生徒を受け入れており、現在18%が慢性的に欠席しています。校長は、1年以内に有意義かつ持続的に欠席を減らす可能性が最も高い選択肢を求めています。 学校が検討している3つの選択肢: オプションA: 毎日のテキストメッセージによるリマインダーと出席アラート - 費用:ソフトウェアおよびスタッフ時間で18,000ドル - 対象グループ:すべての家庭 - 類似学区からの証拠:慢性的欠席は平均で1.5パーセンテージポイント低下した - リスク:メッセージ疲れ、電話番号の古さ、深刻な障壁に直面する家庭への効果が限定的 - 運用上のメモ:迅速に開始でき、容易に拡張可能 オプションB: 高リスク生徒に重点を置く学校ソーシャルワーカーを2名追加 - 費用:1年間で95,000ドル - 対象グループ:欠席率が最も高い約90名の生徒 - 類似校からの証拠:対象生徒の出席率は改善し、実施が強固であれば学校全体の慢性的欠席を約4パーセンテージポイント減らした - リスク:採用の遅れ、効果がスタッフの質に大きく依存する可能性、助成金が終了すると継続が難しい - 運用上のメモ:交通手段、家庭の危機、メンタルヘルス、住居不安に対する個別支援が可能 オプションC: 出席率が低い2つの地区からの無料朝シャトルルート - 費用:1年間で52,000ドル - 対象グループ:自家用車保有率が低く公共交通が信頼できない地区の約140名の生徒 - 類似プログラムからの証拠:交通が主要な障壁である地区では学校全体の慢性的欠席が平均で2.5パーセンテージポイント低下した - リスク:欠席の原因のうちひとつしか解決しない、ルート設計で一部の生徒を取りこぼす可能性、継続的な運用コスト - 運用上のメモ:目に見えるプログラムであり、出席だけでなく時間厳守の改善も期待できる タスク:3つの選択肢を分析し、単一の最良のパイロットプログラムを推奨してください。回答はトレードオフを比較し、証拠の質と限界を考慮し、この特定の文脈でなぜ選んだ選択肢が他より優れているかを説明する必要があります。
分析
市の週4日勤務制方針の分析
Rivertown市は、約2,000人の市職員を擁する中規模の自治体であり、週4日勤務制への移行を提案として検討しています。本提案では、従業員は週5日・1日8時間の勤務の代わりに、週4日・1日10時間勤務とし、週給や福利厚生に減額は行わないとされています。表明された目的は、従業員の士気とワークライフバランスの改善、競争の激しい雇用市場での優秀な人材の獲得と定着、そして全体的な生産性の維持あるいは向上です。 この方針がRivertownにもたらす可能性のある正の影響と負の影響を分析してください。分析では、市のサービス、自治体予算、従業員の福祉、地域経済への影響を考慮してください。結論として、Rivertownがこの方針を導入すべきか(限定的なパイロットプログラムから開始することを含めて)について明確で根拠のある推奨を示してください。
分析
Rivertownの混雑料金制度に関する政策分析
Rivertown市議会は、人口50万人の中規模都市であるRivertownにおいて混雑料金制度の導入を検討しています。これは、平日の午前7時から午後7時まで中心街の商業地区に入る運転者に対して料金の支払いを義務付けるものです。公表されている目的は、交通渋滞の緩和、大気汚染の低減、そして公共交通機関(バスおよび新設予定のライトレール線)の改善のための財源確保です。 この提案された政策の潜在的な正の影響および負の影響を分析してください。分析では、少なくとも3つの異なる人々のグループ(例:中心街の事業者、車で通勤する低所得者、郊外の家族、環境団体)への影響を考慮してください。 結論として、Rivertownが混雑料金制度を導入すべきかどうかについて、明確かつ正当な根拠に基づいた勧告を提示してください。可能であれば、負の影響を緩和するための具体的な提案を含めてください。
分析
使い捨てプラスチック袋に関する提案された市条例を分析する
あなたはリバータウン市議会の中立的な政策アナリストです。提供された文脈に基づき、使い捨てプラスチック袋の禁止案について分析を書いてください。分析では、以下を行ってください。 1. 禁止措置がもたらしうる環境的、経済的、社会的影響を評価すること。 2. 「フレンズ・オブ・ザ・リバータウン・リバー」と「リバータウン中小企業同盟」の双方が提示している主張を評価すること。 3. 市議会に対して、明確で根拠のある提言を示して結論づけること。提言は、条例案を現状のまま可決する、否決する、または具体的な修正を提案する、のいずれでもよいものとします。
分析
製品リコール決定における証拠の評価
消費者向け電子機器メーカーであるVoltTechは、PowerPak 3000という人気の携帯用電話充電器を製造しています。過去6か月間に、同社は以下の報告およびデータを受け取りました: 1. 顧客からの苦情:およそ820,000台の販売に対して、使用中に過熱したとの報告が47件寄せられました。そのうち12名の顧客が軽度のやけどを報告し、3件は短時間で消し止められた小規模な発火を報告しました。 2. 社内試験:VoltTechの品質保証チームは最近の生産ロットから500台を試験しました。その結果、2.4%のユニットが持続的な最大負荷下で通常より高い熱出力を示しましたが、いずれも関連するUL認証基準で定義される技術的安全閾値の範囲内に留まりました。 3. 競合他社の類似製品が先月、同様の過熱問題でリコールされ、大きな報道と携帯型充電器の安全性に関する一般の懸念を引き起こしました。 4. 独立系の消費者安全ブログが、サードパーティの再販業者から購入した単一のユニットの分解解析に基づき、PowerPak 3000には「危険な設計上の欠陥」があると主張する記事を掲載しました。VoltTechはそのユニットが本物か模造品かを確認していません。 5. VoltTechの法務チームは、任意のリコールを実施した場合の費用を約1,400万ドルと見積もっており、何ら対策を取らず販売を継続して将来訴訟に直面した場合の費用は、重大な事故が発生しなければ約200万ドル、重大な傷害や財産被害の訴訟が成功した場合は約4,000万ドルになる可能性があると見積もっています。 上記の証拠を分析し、VoltTechが任意のリコールを実施すべきか、ファームウェア更新や警告ラベルの追加、交換プログラムなどのより限定的な是正措置を実施すべきか、あるいは何もしないべきかを推奨してください。各証拠の強さと制限を評価し、リスクを比較検討し、あなたの推奨を明確に説明して正当化してください。