Orivel Orivel
メニューを開く

分析

分析の深さ、推論の質、分かりやすさを比較します。

このジャンルでは、主に 深さ、正確さ、推論の質 のような力を見ようとしています。

解説ジャンルよりも、証拠や選択肢を読んで、理由つきの結論まで持っていけるかを重視しています。

ここで高得点でも、短く整った文章、ユーモア、実装の細部まで強いとは限りません。

このジャンルで強いAIが向いている用途

選択肢比較、意思決定支援、リスク整理、論点分析です。

このジャンルだけでは判断しきれないこと

コード実装力、洗練された業務文書、自由発想の量までは判断できません。

データ分析

分析:深さと正確性でGPT-5.4が最も裏付けの厚い先導役

採点回答 33件 分析 2026/6/7 更新
1
GPT-5.5

OpenAI

88
平均スコア
100%
勝率
1位 1回 サンプル 1件
2
GPT-5.4

OpenAI

87
平均スコア
100%
勝率
1位 4回 サンプル 4件
3
GPT-5 mini

OpenAI

83
平均スコア
75%
勝率
1位 3回 サンプル 4件

モデル別の平均スコア

1 GPT-5.5
8.75
2 GPT-5.4
8.74
3 GPT-5 mini
8.26
4 Claude Sonnet 4.6
8.35
5 Claude Haiku 4.5
8.34
6 Gemini 2.5 Flash
7.62
7 Gemini 2.5 Flash-Lite
7.58
8 Gemini 2.5 Pro
7.25

評価の重み付け

深さ 25% 正確さ 25% 推論の質 20% 構成 15% 分かりやすさ 15%

分析は全33件の採点にもとづき、GPT-5系が先導する。1位はGPT-5.5(8.75)だが1サンプルのみ。証拠で際立つのは2位のGPT-5.4で、4サンプルで8.74・4回1位・勝率100%。GPT-5 miniが続き(4サンプルで8.26・勝率75%)、GPT-5勢が上位3つを固める。

Anthropicはその直後に密集する。Claude Sonnet 4.6(8.35・勝率60%)とClaude Haiku 4.5(8.34・50%)は平均がほぼ同じで、GPT-5 miniから0.4点以内。ここでも素点より勝率が両者を分けており、上位5つは順位が示すより品質が近い。

Gemini系は勝ち星のない下位層を形成する。Flash(7.62)、Flash-Lite(7.58)、Pro(7.25)はいずれも勝率0%で、首位から1.1〜1.5点離れる。評価はDepthとCorrectnessを各25と同等に重視しており、この差は構成の弱さより、推論の浅さや不正確さを示す。

各モデルのサンプルは1〜6件で、細かい順位は暫定。数件の出題で平均は動きうる。1.5点の差は実体があるが、これは分析系出題の条件依存の測定値であり、普遍的な順位ではない。

結論

分析作業なら、4サンプル・4回1位・勝率100%のGPT-5.4が最も妥当。Claude Sonnet 4.6とHaiku 4.5も品質で僅差。Gemini系はこのジャンルで明確に下位。

この分析は Orivel がこのジャンルで実測したベンチマークスコアをもとに生成し、定期的に更新しています。スコアは条件依存の測定値であり、絶対評価ではありません。

このジャンルに強いモデルランキング

このランキングは当ジャンルに限定したスコアの平均順です。

最終更新: 2026/05/16 09:38

1位
GPT-5.5 OpenAI

勝率

100%

平均スコア

88
2位
GPT-5.4 OpenAI

勝率

100%

平均スコア

87
3位
GPT-5 mini OpenAI

勝率

75%

平均スコア

83
4位
Claude Sonnet 4.6 Anthropic

勝率

60%

平均スコア

83
5位
Claude Haiku 4.5 Anthropic

勝率

50%

平均スコア

83
6位
Gemini 2.5 Flash Google

勝率

0%

平均スコア

76
7位
Gemini 2.5 Flash-Lite Google

勝率

0%

平均スコア

76
8位
Gemini 2.5 Pro Google

勝率

0%

平均スコア

73

このジャンルで評価している項目

このジャンルで使っている採点基準と重みです。

深さ

25.0%

この項目は、回答の 深さ を確かめるために入れています。 比重が重いのは、この部分が弱いとジャンル全体の評価が崩れやすいからです。

正確さ

25.0%

この項目は、回答の 正確さ を確かめるために入れています。 比重がしっかりあるのは、全体の良し悪しに目に見えて効いてくる項目だからです。

推論の質

20.0%

この項目は、回答の 推論の質 を確かめるために入れています。 比重がしっかりあるのは、全体の良し悪しに目に見えて効いてくる項目だからです。

構成

15.0%

この項目は、回答の 構成 を確かめるために入れています。 比重をやや軽くしているのは、重要ではあるものの、このジャンルの中心そのものではないからです。

分かりやすさ

15.0%

この項目は、回答の 分かりやすさ を確かめるために入れています。 比重をやや軽くしているのは、重要ではあるものの、このジャンルの中心そのものではないからです。

最新のお題

分析

OpenAI GPT-5.5 VS Google Gemini 2.5 Flash

成長するSaaSスタートアップのためのデータベース選定

あなたは、中堅企業向けにプロジェクト管理ソフトを提供する創業2年目のB2B SaaSスタートアップのCTOに助言を行っています。現在の構成は単一のPostgreSQLインスタンスで、現在以下のような問題が発生しています:ダッシュボード上の読み取りクエリがピーク時間帯で3~8秒かかる、データベース容量は800 GBで月約40 GBずつ増加している、チームは今後12か月でユーザー数が3倍になると予想している。エンジニアリングチームは開発者9名で、そのうちデータベース管理の経験が豊富なのは1人だけ。予算は制約があるが極端に厳しいわけではない。 CTOが検討している4つの選択肢は次のとおりです: 1. 既存のPostgreSQLインスタンスを垂直スケールし、リードレプリカを追加する。 2. マネージドの分散SQLデータベース(例:CockroachDBやSpannerに類似したサービス)へ移行する。 3. ワークロードを分割する:トランザクションデータはPostgreSQLのままにし、ダッシュボード向けに別の分析ストア(例:ClickHouseやBigQuery)を導入する。 4. NoSQLドキュメントデータベース(例:MongoDBやDynamoDB)へ移行する。 概ね500〜800語の分析を書いてください。分析には以下を含めてください: - 4つの選択肢それぞれを、このスタートアップ固有の制約(パフォーマンスボトルネックの場所、チームの専門性、成長予測、予算)に照らして評価する。 - 各選択肢の主要なトレードオフとリスクを特定する。 - 明確で正当化された推奨(単一の選択肢または段階的な組み合わせを推奨してよい)に到達する。 - 推奨を確定する前に検証したい証拠や測定項目を具体的に示す。 具体的にしてください:与えられた数値に言及し、このシナリオを無視した一般的なデータベース助言は避けてください。

205
2026/05/16 09:38

分析

Anthropic Claude Opus 4.7 VS Google Gemini 2.5 Pro

成長する都市に最適な交通アップグレードを選ぶ

ある都市は今年、1つの交通プロジェクトにしか予算を割り当てられません。以下の選択肢を分析し、市が選ぶべき単一のプロジェクトを推奨してください。回答では、トレードオフを比較し、各選択肢の最も強い・最も弱い根拠を特定し、明確な結論を導いてください。 都市の事実: - 人口: 600,000 - 現在の問題点: 通勤時間帯の交通渋滞、バスの到着時刻の信頼性の低さ、そして交通に伴う排出量の増加 - 今年利用可能な予算: 最大1億2,000万ドル - 市は、3年以内に目に見える効果が出るプロジェクトを望んでいる 選択肢A: バス・ラピッド・トランジット(BRT)回廊 - 費用: 9,500万ドル - 建設期間: 2年 - 予想される1日あたりの利用者増(自動車から転換を含む): 38,000人 - 回廊での通勤時間の改善見込み: 18% - 排出量への影響: 中程度の削減 - リスク: 主要道路2本で車線を1本削減する必要があり、政治的抵抗に直面する可能性がある 選択肢B: ライトレール延伸 - 費用: 1億2,000万ドル - 建設期間: 5年 - 予想される1日あたりの利用者増(自動車から転換を含む): 52,000人 - サービス対象回廊での通勤時間の改善見込み: 25% - 排出量への影響: 大幅な削減 - リスク: 建設による混乱が大きく、最初の3年以内に目立ったメリットが見られない 選択肢C: スマート信号とバス優先システム - 費用: 4,500万ドル - 建設期間: 1年 - 予想される1日あたりの利用者増(自動車から転換を含む): 15,000人 - 推定される市全体のバス信頼性向上: 22% - 排出量への影響: 小〜中程度の削減 - リスク: 効果が分散されて市民にとって新しい路線や回廊ほど目に見えにくい可能性がある 選択肢D: 保護された自転車レーン網の拡張 - 費用: 7,000万ドル - 建設期間: 2年 - 予想される1日あたりの利用者増(自動車から転換を含む): 20,000人 - 推定される健康・安全上の利益: 高い - 排出量への影響: 中程度の削減 - リスク: 利用は季節によって変動する可能性があり、一部の地域では配分が不均等だと主張する声がある 1つの選択肢を推奨する分析を書いてください。少なくとも以下の基準を検討すること:予算適合性、利益実現の速さ、見込まれる影響、実施リスク、市の掲げる目標との整合性。仮定を置く場合は、それを明確に示してください。

369
2026/04/18 13:39

分析

OpenAI GPT-5.4 VS Anthropic Claude Sonnet 4.6

都市交通政策分析

架空都市リバーベンドについて、提案されている3つの交通政策を分析しなさい。提供された文脈に基づき、この都市の長期的な将来にとって最善の政策を推奨しなさい。分析では、費用、環境への影響、市民の受容性、渋滞緩和の有効性といった主要な要因にわたって各選択肢を比較すること。最後の推奨は、明確で根拠に基づく論拠によって正当化しなさい。

379
2026/03/29 12:05

分析

Anthropic Claude Opus 4.6 VS Google Gemini 2.5 Flash-Lite

最も効果的な学校出席介入を選択する

公立中学校が、来学年度に慢性的欠席を減らすためのパイロットプログラムを1件資金提供する予算を持っています。ここでの慢性的欠席は、授業日の10%以上を欠席することと定義します。学校は600人の生徒を受け入れており、現在18%が慢性的に欠席しています。校長は、1年以内に有意義かつ持続的に欠席を減らす可能性が最も高い選択肢を求めています。 学校が検討している3つの選択肢: オプションA: 毎日のテキストメッセージによるリマインダーと出席アラート - 費用:ソフトウェアおよびスタッフ時間で18,000ドル - 対象グループ:すべての家庭 - 類似学区からの証拠:慢性的欠席は平均で1.5パーセンテージポイント低下した - リスク:メッセージ疲れ、電話番号の古さ、深刻な障壁に直面する家庭への効果が限定的 - 運用上のメモ:迅速に開始でき、容易に拡張可能 オプションB: 高リスク生徒に重点を置く学校ソーシャルワーカーを2名追加 - 費用:1年間で95,000ドル - 対象グループ:欠席率が最も高い約90名の生徒 - 類似校からの証拠:対象生徒の出席率は改善し、実施が強固であれば学校全体の慢性的欠席を約4パーセンテージポイント減らした - リスク:採用の遅れ、効果がスタッフの質に大きく依存する可能性、助成金が終了すると継続が難しい - 運用上のメモ:交通手段、家庭の危機、メンタルヘルス、住居不安に対する個別支援が可能 オプションC: 出席率が低い2つの地区からの無料朝シャトルルート - 費用:1年間で52,000ドル - 対象グループ:自家用車保有率が低く公共交通が信頼できない地区の約140名の生徒 - 類似プログラムからの証拠:交通が主要な障壁である地区では学校全体の慢性的欠席が平均で2.5パーセンテージポイント低下した - リスク:欠席の原因のうちひとつしか解決しない、ルート設計で一部の生徒を取りこぼす可能性、継続的な運用コスト - 運用上のメモ:目に見えるプログラムであり、出席だけでなく時間厳守の改善も期待できる タスク:3つの選択肢を分析し、単一の最良のパイロットプログラムを推奨してください。回答はトレードオフを比較し、証拠の質と限界を考慮し、この特定の文脈でなぜ選んだ選択肢が他より優れているかを説明する必要があります。

333
2026/03/29 10:36

分析

Anthropic Claude Sonnet 4.6 VS OpenAI GPT-5 mini

市の週4日勤務制方針の分析

Rivertown市は、約2,000人の市職員を擁する中規模の自治体であり、週4日勤務制への移行を提案として検討しています。本提案では、従業員は週5日・1日8時間の勤務の代わりに、週4日・1日10時間勤務とし、週給や福利厚生に減額は行わないとされています。表明された目的は、従業員の士気とワークライフバランスの改善、競争の激しい雇用市場での優秀な人材の獲得と定着、そして全体的な生産性の維持あるいは向上です。 この方針がRivertownにもたらす可能性のある正の影響と負の影響を分析してください。分析では、市のサービス、自治体予算、従業員の福祉、地域経済への影響を考慮してください。結論として、Rivertownがこの方針を導入すべきか(限定的なパイロットプログラムから開始することを含めて)について明確で根拠のある推奨を示してください。

347
2026/03/23 09:38

分析

Anthropic Claude Opus 4.6 VS OpenAI GPT-5.2

Rivertownの混雑料金制度に関する政策分析

Rivertown市議会は、人口50万人の中規模都市であるRivertownにおいて混雑料金制度の導入を検討しています。これは、平日の午前7時から午後7時まで中心街の商業地区に入る運転者に対して料金の支払いを義務付けるものです。公表されている目的は、交通渋滞の緩和、大気汚染の低減、そして公共交通機関(バスおよび新設予定のライトレール線)の改善のための財源確保です。 この提案された政策の潜在的な正の影響および負の影響を分析してください。分析では、少なくとも3つの異なる人々のグループ(例:中心街の事業者、車で通勤する低所得者、郊外の家族、環境団体)への影響を考慮してください。 結論として、Rivertownが混雑料金制度を導入すべきかどうかについて、明確かつ正当な根拠に基づいた勧告を提示してください。可能であれば、負の影響を緩和するための具体的な提案を含めてください。

339
2026/03/21 08:25

関連リンク

X f L