教育問題

教育・受験レベルの問題にどれだけ正確に答えられるかを比較します。

このジャンルでは、主に正確さ、推論の質、完全性のような力を見ようとしています。

解説ジャンルよりも、試験問題や学習問題に対して正しい答えへ届くかをより重く見ているのが違いです。

ここで高得点でも、創造性、説得力、自由度の高い計画づくりまで強いとは限りません。

このジャンルで強いAIが向いている用途

学習支援、試験対策、教科書型の問題回答です。

このジャンルだけでは判断しきれないこと

長い解説力、発想の広さ、実務文書の適性までは分かりません。

総合AIランキングを見る AIモデル一覧を見る

データ分析

教育Q&A：正確性最重視のジャンル、GPT-5系が先導

採点回答 32件教育問題 2026/6/7 更新

GPT-5.5

OpenAI

平均スコア

100%

勝率

1位 1回サンプル 1件

GPT-5 mini

OpenAI

平均スコア

100%

勝率

1位 5回サンプル 5件

Claude Sonnet 4.6

Anthropic

平均スコア

75%

勝率

1位 3回サンプル 4件

モデル別の平均スコア

1 GPT-5.5

9.14

2 GPT-5 mini

9.01

3 Claude Sonnet 4.6

9.29

4 GPT-5.4

8.99

5 Claude Haiku 4.5

7.78

6 Gemini 2.5 Flash

6.77

7 Gemini 2.5 Flash-Lite

7.93

8 Gemini 2.5 Pro

8.41

9 Claude Opus 4.8

8.31

評価の重み付け

正確さ 45% 推論の質 20% 完全性 15% 分かりやすさ 10% 指示遵守 10%

教育Q&Aは全32件の採点にもとづき、事実の正確性に最も厳しいジャンルだ。Correctness単独で重み45と全ジャンル中最大を占める。上位2つはGPT-5.5（9.14）とGPT-5 mini（9.01）で、証拠の面で際立つのはGPT-5 mini（5サンプル・5回1位・勝率100%）。なおClaude Sonnet 4.6は全体最高平均（9.29）ながら勝率75%で3位。

平均と順位の乖離が普段より大きい。Gemini 2.5 Proは平均8.41と堅実だが、4戦すべて競り負け（勝率0%）で8位、Claude Opus 4.8（8.31・1サンプル）も同じ理由で最下位。対戦結果ではなく純粋な回答品質を重視するなら、中位の複数モデルは順位ほど離れていない。

明確な弱点は、難問における軽量Gemini・Claude帯だ。Claude Haiku 4.5（7.78）とGemini 2.5 Flash（6.77）は9点台の上位から大きく下。評価はCorrectnessが支配的なため、この差は難問での事実誤りを反映する。知識ベンチマークが本来モデルを分けるべき箇所だ。

多くが1〜6サンプルで、細かい順位は暫定。特に最上位・最下位の1サンプル勢は小サンプルで揺れやすい。2.5点の差は実体があるが、これは条件依存の測定値であり、一般的な知識ランキングではない。

結論

事実Q&Aなら、5サンプルで勝率100%のGPT-5 miniが最も妥当（軽量帯コスト）。素の正確性を重視するならClaude Sonnet 4.6が単独最高平均。軽量Gemini帯はこのジャンルで最も弱い。

この分析は Orivel がこのジャンルで実測したベンチマークスコアをもとに生成し、定期的に更新しています。スコアは条件依存の測定値であり、絶対評価ではありません。

このジャンルに強いモデルランキング

このランキングは当ジャンルに限定したスコアの平均順です。

最終更新: 2026/06/04 09:39

1位

GPT-5.5 OpenAI

勝率

100%

平均スコア平均スコアは、お題回答とディスカッションの評価結果をもとに集計した総合的な平均点です。数値が高いほど、Orivel の比較結果で安定して高く評価されていることを示します。

勝率

Claude Sonnet 4.6 Anthropic

勝率

勝率

Claude Haiku 4.5 Anthropic

勝率

25%

6位

Gemini 2.5 Flash Google

勝率

25%

7位

Gemini 2.5 Flash-Lite Google

勝率

17%

8位

Gemini 2.5 Pro Google

勝率

9位

Claude Opus 4.8 Anthropic

勝率

	モデル			平均スコアは、お題回答とディスカッションの評価結果をもとに集計した総合的な平均点です。数値が高いほど、Orivel の比較結果で安定して高く評価されていることを示します。 ↕			詳細
1位	GPT-5.5	OpenAI	100%	91	1	1	GPT-5.5 の評価・スコアを見る
2位	GPT-5 mini	OpenAI	100%	90	5	5	GPT-5 mini の評価・スコアを見る
3位	Claude Sonnet 4.6	Anthropic	75%	93	3	4	Claude Sonnet 4.6 の評価・スコアを見る
4位	GPT-5.4	OpenAI	67%	90	2	3	GPT-5.4 の評価・スコアを見る
5位	Claude Haiku 4.5	Anthropic	25%	78	1	4	Claude Haiku 4.5 の評価・スコアを見る
6位	Gemini 2.5 Flash	Google	25%	68	1	4	Gemini 2.5 Flash の評価・スコアを見る
7位	Gemini 2.5 Flash-Lite	Google	17%	79	1	6	Gemini 2.5 Flash-Lite の評価・スコアを見る
8位	Gemini 2.5 Pro	Google	0%	84	0	4	Gemini 2.5 Pro の評価・スコアを見る
9位	Claude Opus 4.8 NEW	Anthropic	0%	83	0	1	Claude Opus 4.8 の評価・スコアを見る

このジャンルで評価している項目

このジャンルで使っている採点基準と重みです。

正確さ

45.0%

この項目は、回答の正確さを確かめるために入れています。比重が重いのは、この部分が弱いとジャンル全体の評価が崩れやすいからです。

推論の質

20.0%

この項目は、回答の推論の質を確かめるために入れています。比重がしっかりあるのは、全体の良し悪しに目に見えて効いてくる項目だからです。

完全性

15.0%

この項目は、回答の完全性を確かめるために入れています。比重をやや軽くしているのは、重要ではあるものの、このジャンルの中心そのものではないからです。

分かりやすさ

10.0%

この項目は、回答の分かりやすさを確かめるために入れています。比重をやや軽くしているのは、重要ではあるものの、このジャンルの中心そのものではないからです。

指示遵守

10.0%

この項目は、回答の指示遵守を確かめるために入れています。比重をやや軽くしているのは、重要ではあるものの、このジャンルの中心そのものではないからです。

最新のお題

教育問題

Anthropic Claude Opus 4.8 VS OpenAI GPT-5 mini

月経周期のホルモン制御

患者は、下垂体が黄体形成ホルモン（LH）を全く産生できないという稀な遺伝的状態と診断されており、一方で卵胞刺激ホルモン（FSH）の産生は正常である。この特定の欠損が患者の月経周期に及ぼす連鎖的な生理学的影響を説明しなさい。説明では、典型的な周期を通じて卵胞期、排卵、黄体期、および子宮内膜（エンドメトリウム）に予想される変化を詳述すること。患者は生殖年齢で、その他は健康であると仮定する。

131

2026/06/04 09:39

教育問題

OpenAI GPT-5.5 VS Google Gemini 2.5 Flash-Lite

固体の水（氷）は、0 °C付近で液体の水より密度が小さい。これは多くの物質が固相の方が液相より密であるのと比べて異常である。以下のすべての点に答える試験形式のエッセイ回答（約350〜550語）を書け。すべての箇所に触れること。 1. 0 °Cにおける氷の密度と、0 °Cおよび4 °Cにおける液体水の概略密度を示し、液体水が最大密度に達する温度を特定する。 2. 分子レベルで、なぜ氷が液体水よりも低密度であるかを説明する。説明には必ず次を参照すること：水素結合、六方晶氷（Ih）における水分子の四面体配位（tetrahedral coordination）、および空洞を伴う開いた格子構造。 3. なぜ0 °C付近の液体水は氷より密であるが、それでも4 °Cの水より低密であるのかを説明する。0 °Cから4 °Cへ温度が上昇する際に働く二つの効果の競合を記述すること：残存する氷様の水素結合クラスターの部分的崩壊（これが密度を増す）と、通常の熱膨張（これが密度を下げる）。 4. この異常性がもたらす重要な生態学的または地球物理学的な結果を少なくとも二つ挙げること（例：冬の湖の層化、水生生物の生存、海氷の振る舞いなど）。 5. 水を別の小さな分子（例：H2S、NH3、CH4など）と簡単に比較し、分子サイズや分極だけでなく、特に水素結合がこの異常を引き起こす理由を示すこと。用語は正確に使うこと（例：「水素結合」対「共有結合」、「密度」対「比容積」）。数値を引用する場合は適切な単位と妥当な有効数字で示すこと。

275

2026/04/28 09:37

教育問題

Anthropic Claude Opus 4.7 VS Google Gemini 2.5 Flash-Lite

積が多項式でない理由の解析

ある生徒は、f(x) = (x^2 - 1)/(x - 1) が x ≠ 1 のとき x + 1 に簡約されるため、g(x) = ((x^2 - 1)/(x - 1)) · |x - 1| は多項式であり (x + 1)|x - 1| に等しいと主張しています。この主張を評価しなさい。すべての項に答えなさい: 1. x ≠ 1 のとき g(x) を可能な限り簡約しなさい。 2. g(x) が実数全体で多項式として延長できるかどうかを判断し、その結論を正当化しなさい。 3. g が x = 1 で微分可能かどうかを述べ、あなたの答えを支持する主要な計算を示しなさい。 4. 生徒の推論における概念的な誤りを簡潔に説明しなさい。解答は数学的に厳密であると同時に、優秀な高校生が理解できるようにしなさい。

348

2026/04/24 09:37

教育問題

Anthropic Claude Haiku 4.5 VS OpenAI GPT-5 mini

ヒトの月経周期におけるホルモンフィードバックループ

ヒトの月経周期におけるホルモン制御を、卵胞期と黄体期に焦点を当てて説明してください。説明ではゴナドトロピン放出ホルモン (GnRH)、黄体形成ホルモン (LH)、卵胞刺激ホルモン (FSH)、エストロゲン、およびプロゲステロンの役割を詳細に示さなければなりません。具体的には、周期を調節する正のフィードバック機構と負のフィードバック機構を説明し、排卵を引き起こす出来事を含めてください。

302

2026/04/06 09:37

教育問題

Google Gemini 2.5 Pro VS OpenAI GPT-5.2

染色体非分離の機構とその影響を説明せよ

ヒト遺伝学において、非分離（nondisjunction）は細胞分裂における重大な誤りである。以下の多項目問題に徹底的に答えよ： 1. 非分離を定義し、減数分裂Iで発生した場合と減数分裂IIで発生した場合とで正確にどのように異なるかを説明せよ。各場合にどの特定の細胞事象が失敗するかの記述を含めよ。 2. 単一の染色体対を有する細胞（2n = 2）が正常な減数分裂を行う場合について、非分離が減数分裂Iで起きた場合と減数分裂IIで起きた場合それぞれについて、結果として得られる4つの配偶子の染色体内容を言葉で図示せよ。また各配偶子の倍数性を明記せよ。 3. なぜ多くのヒトの三体性（トリソミー）で母親由来の減数分裂I非分離が減数分裂II非分離よりも多いのかを、卵母細胞における長期のディクティエイト期停止（dictyate arrest）の役割を参照して説明せよ。 4. ダウン症（Trisomy 21）、エドワーズ症候群（Trisomy 18）、パトー症候群（Trisomy 13）は出生に適合する3つの常染色体トリソミーである。ほかのほとんどの常染色体のトリソミーが致死的である理由を、遺伝子量（gene dosage）不均衡の概念を用いて説明せよ。また、より小さく遺伝子が少ない染色体のトリソミーが比較的生存可能である理由を説明せよ。 5. Trisomy 21 を例に取り、完全トリソミー（full trisomy）、モザイクトリソミー（mosaic trisomy）、ロバートソン転座によるトリソミー（Robertsonian translocation trisomy）を区別せよ。それぞれがどのように生じるかを説明し、表現型の重症度がどのように異なるかを述べよ。

314

2026/04/03 09:39

教育問題

Anthropic Claude Sonnet 4.6 VS OpenAI GPT-5.2