GPT-5.4
GPT-5.4の総合成績、ジャンル別の強み・弱み、最新の比較結果を確認できます。
モデル概要
リリース
2026-03-05
コンテキスト
272k トークン
入力料金
$2.50 / 1M
出力料金
$15.00 / 1M
2026年3月5日リリース。GPT-5.5 が出る2026年4月23日まで、約7週間 OpenAI のフラッグシップを務めました。Orivel 上では引き続き balanced 枠として現役で、API の標準推論は Thinking バリアント。多くのタスクで能力を維持しつつ 5.5 より大幅に安価なのが強みです。
変更点
- 2026年3月5日リリース、GPT-5.2 の後継
- Orivel では2026年3月〜4月にフラッグシップを担当、GPT-5.5 登場後は balanced 枠に
- Thinking バリアントが API 側の標準推論モデル
- Pro バリアントは最難関タスク向けにさらに深い推論を提供
- コンテキスト272kトークン(拡張ティアで最大約1Mまで、ただし料金倍率あり)
- 価格:入力 $2.50 / 出力 $15.00 per 1M tokens — GPT-5.5 の出力料金の約半分
総合性能
総合ランキング
4位
全体勝率
平均スコア
勝利数
74
比較件数
110
モデル別の勝率
ジャンル別で詳しく見る
得意ジャンル
アイデア出し
平均スコア
ジャンル平均
勝率
比較件数
5
ジャンル別ランキング
3 / 13
勝利数
5
計画立案
平均スコア
ジャンル平均
勝率
比較件数
5
ジャンル別ランキング
4 / 11
勝利数
5
お笑い
平均スコア
ジャンル平均
勝率
比較件数
4
ジャンル別ランキング
6 / 12
勝利数
3
分析
平均スコア
ジャンル平均
勝率
比較件数
4
ジャンル別ランキング
2 / 11
勝利数
4
プログラミング
平均スコア
ジャンル平均
勝率
比較件数
8
ジャンル別ランキング
4 / 12
勝利数
6
評価項目ごとの強み
評価項目ごとの平均スコア(10点満点)
量
原文への忠実さ
多様性
重要点の網羅
倫理性・安全性
完全性
文体の質
正確さ
推論の質
指示遵守
深さ
共感性
最新のお題
アイデア出し
スーパーマーケットの食品ロスに対する創造的な解決策
大手全国スーパーマーケットチェーンが、廃棄している食べられる食品の量を大幅に減らしたいと考えています。彼らはすでに余剰食品を慈善団体に寄付していますが、大量の商...
要約
『孫子』の核心原則を要約する
次の孫子の『The Art of War』からの抜粋を要約してください。要約は単一の一貫した段落で、150から200語の間であること。焦点は、紛争を評価するための要因、欺瞞の重要性...
システム設計
リアルタイム共同ホワイトボードシステムを設計する
あなたは、リアルタイム共同ホワイトボードアプリケーションの高レベルなシステムアーキテクチャを設計する任務を負っています。 **中核要件:** 1. **リアルタイム共同編...
共感
新しい仕事でのインポスター症候群への対応
あなたは支援的なメンターだと想像してください。ある人が次のメッセージを送ってきました。思いやりがあり役に立つ返答を書いてください。 「助けが必要です。1か月前に...
ブレインストーミング
コミュニティ公園の再活性化ブレインストーミング
低利用の公共公園を再活性化するための、低コストでコミュニティ主導の取り組みのアイデアをブレインストーミングしてください。各アイデアについて、次の基準を満たすこと...
プログラミング
MarkdownサブセットをHTMLに変換するコンバータ
Python関数 `markdown_to_html(markdown_text: str) -> str` を実装してください。この関数は、特定のサブセットのMarkdownを含む文字列を対応するHTML表現に変換します。...
システム設計
リアルタイム通知サービスの設計
ソーシャルメディアプラットフォーム向けのリアルタイム通知サービスについて、高レベルなシステム設計を概説してください。サービスは次の要件を満たす必要があります。...
解説
CAP定理をプロダクトマネージャーに説明する
あなたはシニアソフトウェアエンジニアで、1対1の説明をプロダクトマネージャーに行います。対象のプロダクトマネージャーは一般的な技術的素養は十分にあるものの、分散シ...
最新のディスカッション
ディスカッション
教育における標準化テストの役割
標準化テストは、学生の適性、学業成績、および学校のパフォーマンスを測るために広く用いられている。支持者は、それらが説明責任と比較のための客観的な基準を提供すると主張する一方で、批評家は不公平でストレスが大きく、カリキュラムを狭めると主張する。この議論は、標準化テストが教育制度の基盤として存続すべきかどうかを中心に展開している。
ディスカッション
ギグエコノミー:柔軟な自由か、それとも不安定な罠か?
ライドシェア、フードデリバリー、フリーランスの仕事などのサービス向けのアプリベースのプラットフォームの台頭は、大規模な『ギグエコノミー』を生み出しました。このモデルは労働者に自分の勤務時間を選び、自分自身がボスである柔軟性を提供します。しかし、しばしば健康保険、有給病気休暇、退職金制度などの伝統的な雇用に伴う福利厚生が伴わず、収入の不安定さを招くことがあります。議論は、ギグエコノミーが個人に自治を与える仕事の前向きな進化なのか、それとも労働者の権利と経済的安全を損なう後退的なモデルなのか、という点に集中しています。
ディスカッション
オフィスの未来:リモートワークをデフォルトにすべきか?
世界的なリモートワークへの移行は、理想的な職場についての根本的な議論を引き起こしています。支持者は、リモートワークをデフォルトの選択肢にすることで比類のない柔軟性が得られ、ワークライフバランスが改善され、企業は間接費を削減しつつ世界中の人材にアクセスできると主張します。反対者は、物理的なオフィスが自発的な協働の促進、強い企業文化の構築、そして若手社員のメンタリングに不可欠であると主張します。議論は、リモートワークの利点が対面での交流の喪失やそれがイノベーションやチームの結束に与える影響を上回るかどうかに焦点を当てています。
ディスカッション
週4日勤務制:進歩か問題か?
賃金を減らさない週4日勤務を、フルタイム雇用の新たな標準として義務化すべきでしょうか?
ディスカッション
A〜Fの評価を超えて:生徒の成績評価制度の改革
この討論では、K-12(幼稚園から高校まで)の学校で用いられている従来のアルファベットによる成績評価(例:A、B、C、D、F)を、ナラティブ・フィードバックや合格/不合格制度などの代替的方法に置き換えるべきかどうかを検討します。改革の支持者は、従来の成績が過度のストレスや競争を生み出し、生徒の学びの真の度合いを捉えられないと主張します。反対者は、アルファベット成績が成績を測るための明確で客観的かつ必要な手段であり、生徒の動機付けとしても重要であると主張します。
ディスカッション
民主主義国では投票を義務化すべきか?
オーストラリアやベルギーなどのいくつかの民主主義国では、選挙で市民に投票を法的に義務付けている一方、ほとんどの民主国家は投票を任意の権利として扱っている。多くの国で投票率が低下する中、義務的な投票がより広い代表性を確保することで民主主義を強化するのか、それとも政治参加を強制することで個人の自由を損なうのかについて議論が高まっている。民主政府はすべての有権者に対して投票を義務化すべきだろうか?
ディスカッション
命を救う医薬品に対する特許保護を各国は廃止すべきか?
医薬品の特許は、企業に対してしばしば20年間にわたり命を救う薬を製造・販売する排他的権利を与える。これらの特許を廃止すべきだという支持者は、必須医薬品へのアクセスは人権であり、特許による独占が価格を人為的に高止まりさせ、中低所得国で防げるはずの死を引き起こしていると主張する。反対者は、特許保護こそが数十億ドル規模の研究開発を推進する主要なインセンティブであり、これがなければ製薬イノベーションは崩壊し、最終的に将来の患者を害することになると論じる。より広範なアクセスを確保するために命を救う医薬品に対する特許保護を各国は廃止すべきか、それとも医療のブレークスルーを支えるインセンティブ構造を維持するためにこれらの保護を存続させるべきか?
ディスカッション
火星植民地化:人類の次なる偉大な飛躍か、それとも資源の誤った転用か?
人類は今後100年以内に、火星に恒久的で自立した人間のコロニーを確立することを目標に、公共および民間の大規模な資源を投入すべきか?