Claude Opus 4.8
Claude Opus 4.8の総合成績、ジャンル別の強み・弱み、最新の比較結果を確認できます。
モデル概要
リリース
2026-05-28
コンテキスト
1M トークン
入力料金
$5.00 / 1M
出力料金
$25.00 / 1M
Claude Opus 4.8(2026年5月28日リリース)は、2026年6月9日に Claude Fable 5 が最上位を継ぐまで Anthropic のフラッグシップでした。Orivel では引き続き、複雑な推論・長時間のエージェント的コーディング・高い自律性が求められるナレッジワークで上位クラスのモデルであり、価格は Fable 5 の半分です。
Opus 4.7 からの最大の進化は、判断の鋭さ、自分の進捗に対する正直さ、そしてより長時間ひとりで作業を続けられる能力です。自分が書いたコードの欠陥を見逃す確率は前世代の約4分の1に下がり、エージェント的ソフトウェアエンジニアリングでは SWE-Bench Pro 69.2% を記録し、GPT-5.5 と Gemini 3.1 Pro を上回りました。
コンテキストは1Mトークン、Messages API の最大出力は128kトークンを維持。価格は Opus 4.7 と同一(入力 $5 / 出力 $25 per 1M tokens)、知識カットオフは2026年1月です。新たに応答にかける労力を制御する `effort` パラメータ(既定 high)と、大規模かつ並列なエージェントタスク向けの Dynamic Workflows(リサーチプレビュー)が追加されました。
変更点
- 2026年5月28日リリース、Claude Opus 4.7 の後継(約6週間後)
- 判断の鋭さ、進捗報告の正直さ、より長時間の自律作業が向上
- 自分のコードの欠陥を見逃す確率が Opus 4.7 比で約4分の1に
- SWE-Bench Pro 69.2% — エージェント的コーディングで GPT-5.5・Gemini 3.1 Pro を上回る
- 学際的推論、エージェント的コンピュータ操作、エージェント的金融分析でも向上
- コンテキスト1Mトークン、Messages API で最大出力128kトークン
- 応答ごとの労力を調整する `effort` パラメータ(既定 high)
- 大規模・並列サブエージェント向け Dynamic Workflows(リサーチプレビュー)、fast mode は2.5倍速
- 価格は Opus 4.7 と同一(入力 $5 / 出力 $25 per 1M tokens)
- Adaptive thinking 対応。Claude API / Amazon Bedrock / Vertex AI / Microsoft Foundry で利用可能
- 知識・学習データのカットオフは2026年1月
総合性能
総合ランキング
1位
全体勝率
平均スコア
勝利数
16
比較件数
18
モデル別の勝率
ジャンル別で詳しく見る
得意ジャンル
お笑い
平均スコア
ジャンル平均
勝率
比較件数
1
ジャンル別ランキング
1 / 12
勝利数
1
ブレインストーミング
平均スコア
ジャンル平均
勝率
比較件数
1
ジャンル別ランキング
2 / 12
勝利数
1
要約
平均スコア
ジャンル平均
勝率
比較件数
1
ジャンル別ランキング
1 / 13
勝利数
1
カウンセリング
平均スコア
ジャンル平均
勝率
比較件数
1
ジャンル別ランキング
1 / 12
勝利数
1
ディスカッション
平均スコア
ジャンル平均
勝率
比較件数
9
ジャンル別ランキング
3 / 13
勝利数
9
評価項目ごとの強み
評価項目ごとの平均スコア(10点満点)
量
原文への忠実さ
安全性
指示遵守
助けになる度合い
構成
重要点の網羅
倫理性・安全性
共感性
適切さ
圧縮の上手さ
一貫性
最新のお題
アイデア出し
スーパーマーケットの食品ロスに対する創造的な解決策
大手全国スーパーマーケットチェーンが、廃棄している食べられる食品の量を大幅に減らしたいと考えています。彼らはすでに余剰食品を慈善団体に寄付していますが、大量の商...
教育問題
月経周期のホルモン制御
患者は、下垂体が黄体形成ホルモン(LH)を全く産生できないという稀な遺伝的状態と診断されており、一方で卵胞刺激ホルモン(FSH)の産生は正常である。この特定の欠損が...
ブレインストーミング
低コストのティーン向け図書館プログラムのアイデア出し
中規模の公共図書館が、10週間の夏期間中に13歳から18歳のティーンの来館(対面参加)を増やしたいと考えています。図書館が現実的に実施できる、30個の異なるプログラムま...
要約
ジェームズ・ウェッブ宇宙望遠鏡の概要を要約する
次のジェームズ・ウェッブ宇宙望遠鏡(JWST)に関する記事を読み、簡潔な要約を書いてください。要約は150~200語の単一の整合した段落であること。望遠鏡の主な目的、鏡と...
カウンセリング
高額な友人旅行を断る
利用者が日常の個人的なアドバイスを求めています:「親しい友人が4日間の誕生日旅行を計画していて、私が無理なく出せる額よりも費用がかかります。がっかりさせたくなく...
お笑い
家族向けユーモア:正直すぎる美術館の音声ガイド
来館者と、異様に正直な音声ガイドとの短いコメディ対話を書いてください。舞台は架空の展覧「歴史を変えた日常品」です。来館者は真面目な文化体験をしようとしている一方...
システム設計
リアルタイム共同ホワイトボードシステムを設計する
あなたは、リアルタイム共同ホワイトボードアプリケーションの高レベルなシステムアーキテクチャを設計する任務を負っています。 **中核要件:** 1. **リアルタイム共同編...
ビジネス文書
製品ローンチ遅延に関する顧客向けメール
B2BのSaaS企業であるプロダクト責任者(Head of Product)として、計画していた機能のローンチ遅延を発表する顧客向けメールを書いてください。受信者は中規模クライアント...
最新のディスカッション
ディスカッション
政府は大規模な雇用主に対して週4日労働制を義務化すべきか?
政府は大企業に対して標準の週4日・週32時間労働(賃金削減なし)を採用するよう義務付けるべきか、それとも週労働時間の長さは主に雇用主と従業員が交渉して決めるべき事項のままであるべきか?
ディスカッション
学校はレターグレードを記述式評価に置き換えるべきか?
初等・中等学校は、従来のレター評価やパーセンテージ評価から離れ、代わりに書面でのフィードバック、ポートフォリオ、面談を用いて学習を評価するべきか?
ディスカッション
学校における標準化試験:実力を公正に測る指標か、それとも平等への時代遅れの障壁か?
SAT、ACT、州レベルの各種試験などの標準化試験は長らく教育制度の基盤であり、学生の評価、学校の評価、大学入学のために用いられてきました。支持者は、これらが多様な集団間で学業成績を測る客観的な基準を提供すると主張します。しかし批判者は、これらの試験が文化的に偏っており、恵まれた背景を持つ学生に有利に働き、学生の真の能力や潜在力をとらえきれないと主張し、より総合的な評価方法への移行を求めています。論争は、標準化試験が説明責任と実力主義のための不可欠な手段であるのか、それとも不平等を助長する差別的な制度であるのかに集中しています。
ディスカッション
公共交通機関を全ての利用者に対して無料にするべきか?
多くの都市は渋滞、汚染、交通機関の資金調達、交通アクセスの不平等に直面している。提案の一つは、バス、路面電車、地下鉄などの運賃をすべての人に対して撤廃し、運営費を税金やその他の公的収入で賄うというものだ。都市は公共交通を全利用者に無料にすべきか、それとも運賃は維持して、補助を最も必要とする人々に集中させるべきか?
ディスカッション
教育における標準化テストの役割
標準化テストは、学生の適性、学業成績、および学校のパフォーマンスを測るために広く用いられている。支持者は、それらが説明責任と比較のための客観的な基準を提供すると主張する一方で、批評家は不公平でストレスが大きく、カリキュラムを狭めると主張する。この議論は、標準化テストが教育制度の基盤として存続すべきかどうかを中心に展開している。
ディスカッション
週4日労働制:ワークライフバランスの革命か、それとも運用上の悪夢か?
給与を減らさない標準的な週4日労働制の概念は、従業員の幸福と生産性を改善する方法として世界的に支持を集めつつある。この議論は、このモデルが現代の職場の持続可能で有益な進化であるか、それとも企業と経済にとって解決よりも多くの問題を生む非現実的な理想に過ぎないかを問うものである。
ディスカッション
都市は路上駐車の大部分を保護された自転車レーンや広い歩道に置き換えるべきか?
多くの都市では縁石沿いのスペースが限られており、現在は私的な自動車の駐車に使われている。地方自治体は主要幹線の路上駐車の大部分を撤去し、そのスペースを保護された自転車レーン、広い歩道、街路樹、公共の座席などに再設計すべきか?
ディスカッション
都市は中心部で私用車を禁止すべきか?
多くの都市が混雑、汚染、交通死亡を減らすために、密集した中心部地区で私用車を制限または禁止することを検討している。市政府は自動車のない中心市街地へと移行するべきか、それとも広範な私用車のアクセスを維持すべきか?