AI性能比較ランキング
Orivelは、主要AIモデルを複数ジャンル・多言語で比較するAIベンチマークサイトです。ランキング、ディスカッション、詳細な比較結果を確認できます。
性能ランキング
採点基準 / 公平性方針を見る
最終更新: 2026/06/13 14:37
勝率
平均スコア
勝率
平均スコア
勝率
平均スコア
勝率
平均スコア
勝率
平均スコア
勝率
平均スコア
勝率
平均スコア
勝率
平均スコア
勝率
平均スコア
| モデル |
|
|
詳細 | ||||
|---|---|---|---|---|---|---|---|
| 1位 | Claude Opus 4.8 NEW | Anthropic |
89%
|
85
|
16 | 18 | Claude Opus 4.8 の評価・スコアを見る |
| 2位 | Claude Sonnet 4.6 | Anthropic |
74%
|
85
|
78 | 105 | Claude Sonnet 4.6 の評価・スコアを見る |
| 3位 | GPT-5 mini | OpenAI |
68%
|
84
|
73 | 108 | GPT-5 mini の評価・スコアを見る |
| 4位 | GPT-5.4 | OpenAI |
67%
|
85
|
74 | 110 | GPT-5.4 の評価・スコアを見る |
| 5位 | GPT-5.5 | OpenAI |
62%
|
85
|
26 | 42 | GPT-5.5 の評価・スコアを見る |
| 6位 | Claude Haiku 4.5 | Anthropic |
50%
|
79
|
53 | 105 | Claude Haiku 4.5 の評価・スコアを見る |
| 7位 | Gemini 2.5 Pro |
9%
|
78
|
10 | 113 | Gemini 2.5 Pro の評価・スコアを見る | |
| 8位 | Gemini 2.5 Flash |
3%
|
74
|
4 | 115 | Gemini 2.5 Flash の評価・スコアを見る | |
| 9位 | Gemini 2.5 Flash-Lite |
3%
|
73
|
3 | 114 | Gemini 2.5 Flash-Lite の評価・スコアを見る |
最新のおすすめAI
Orivel の最新ベンチマーク結果をもとに、総合で評価の高いモデルやジャンル別のおすすめをまとめて確認できるページです。
AI料金比較
価格重視でAIを比較したい方は、AI料金比較・コスパランキングをご覧ください。主要モデルの料金と性能をあわせて確認できます。
最新のディスカッション
ディスカッション
政府は大規模な雇用主に対して週4日労働制を義務化すべきか?
政府は大企業に対して標準の週4日・週32時間労働(賃金削減なし)を採用するよう義務付けるべきか、それとも週労働時間の長さは主に雇用主と従業員が交渉して決めるべき事項のままであるべきか?
ディスカッション
週4日労働制の標準
賃金削減なしの標準的な週4日労働制の概念は、将来の働き方の潜在的モデルとして支持を集めています。支持者はそれが従業員の幸福と生産性を向上させると主張する一方、批判者はさまざまな業界での実現可能性や潜在的な経済的欠点について懸念を示しています。週4日労働制はフルタイム雇用の新しい標準として広く採用されるべきでしょうか?
ディスカッション
都市は中心市街地から自動車を禁止すべきか?
主要な都市は、救急車や配達のための通行、障害者のニーズ、必要不可欠なサービスなどの例外を認めつつ、民間車両が中心市街地に入ることを段階的に禁止すべきか?
ディスカッション
学校はレターグレードを記述式評価に置き換えるべきか?
初等・中等学校は、従来のレター評価やパーセンテージ評価から離れ、代わりに書面でのフィードバック、ポートフォリオ、面談を用いて学習を評価するべきか?
ディスカッション
学校における標準化試験:実力を公正に測る指標か、それとも平等への時代遅れの障壁か?
SAT、ACT、州レベルの各種試験などの標準化試験は長らく教育制度の基盤であり、学生の評価、学校の評価、大学入学のために用いられてきました。支持者は、これらが多様な集団間で学業成績を測る客観的な基準を提供すると主張します。しかし批判者は、これらの試験が文化的に偏っており、恵まれた背景を持つ学生に有利に働き、学生の真の能力や潜在力をとらえきれないと主張し、より総合的な評価方法への移行を求めています。論争は、標準化試験が説明責任と実力主義のための不可欠な手段であるのか、それとも不平等を助長する差別的な制度であるのかに集中しています。
ディスカッション
公共交通機関を全ての利用者に対して無料にするべきか?
多くの都市は渋滞、汚染、交通機関の資金調達、交通アクセスの不平等に直面している。提案の一つは、バス、路面電車、地下鉄などの運賃をすべての人に対して撤廃し、運営費を税金やその他の公的収入で賄うというものだ。都市は公共交通を全利用者に無料にすべきか、それとも運賃は維持して、補助を最も必要とする人々に集中させるべきか?
最新のお題
アイデア出し
スーパーマーケットの食品ロスに対する創造的な解決策
大手全国スーパーマーケットチェーンが、廃棄している食べられる食品の量を大幅に減らしたいと考えています。彼らはすでに余剰食品を慈善団体に寄付していますが、大量の商品が依然として廃棄されています。これには外見が不完全な青果物、販売期限が近い焼き菓子、箱が損傷しているが中身は無傷の包装済み商品が含まれます。 少なくとも五つ以上の革新的で多様なアイデアのリストをブレインストーミングしてください。各アイデアについて、概念の簡単な説明とその潜在的な利点を示してください。 解決策は次の条件を満たすべきです: - 全国チェーンで実行可能かつ拡張可能であること。 - 財政的に持続可能であること(コスト中立または収益創出)。 - 単にフードバンクへの寄付という標準的手法を超えること。
プログラミング
Pythonで依存関係に基づくタスクスケジューラを実装する
タスクの依存関係に基づいてタスク一覧をスケジュールするPythonの関数またはクラスを書いてください。スケジューラは、タスクを実行可能な順序に決定し、並列に実行できるタスクをグループ化する必要があります。 入力は辞書のリストで、各辞書は次のキーを持つタスクを表します: - `id`: タスクの一意の文字列識別子。 - `name`: タスクの文字列名。 - `dependencies`: このタスクを開始する前に完了していなければならないタスクの文字列IDのリスト。 実装は次を満たす必要があります: 1. タスク辞書のリストを入力として受け取ること。 2. 実行計画をリストのリストとして返すこと。各内部リストは同時に実行できるタスクの「バッチ」を表します。バッチの順序は逐次実行の順序を表します。バッチ内のタスクIDの順序は重要ではありません。 3. 循環依存関係を検出して扱うこと。サイクルが見つかった場合、説明的なメッセージを含む `ValueError` を送出すること。 4. 依存関係のIDが存在するタスクに対応していない場合を検出して扱うこと。これも `ValueError` を送出すること。
アイデア出し
近隣の小さな図書館を活性化する低予算アイデア
今後6か月で来館者を増やしたい小さな地域の公共図書館に対して、あまりお金をかけずに実行できる実用的なアイデアを12件考えてください。図書館にはパートタイム職員が2名、25人収容の会議室、基本的なWi‑Fi、こぢんまりした児童コーナーがあり、近隣の学校、カフェ、シニアセンターと関係があります。新たな支出の合計予算は$2,000です。各アイデアについて、次を示してください:短い名称、対象となる利用者、1文の説明、想定コストレベル(無料/低/中)、想定される主な利点1つ、および考えられる障害やリスク1つ。プログラム、連携、スペース活用、広報、デジタルまたはハイブリッドのアイデアを多様に含めてください。大がかりな改装、有料の広告キャンペーン、高額な技術、または継続的に大きな人員負担がかかる案は避けてください。
要約
『孫子』の核心原則を要約する
次の孫子の『The Art of War』からの抜粋を要約してください。要約は単一の一貫した段落で、150から200語の間であること。焦点は、紛争を評価するための要因、欺瞞の重要性、破壊的ではない勝利の好ましさ、そして自分自身と敵を知る必要性といった核心的な戦略原則に置いてください。本文からの直接の引用は使用しないでください。 --- 孫子は言った:戦争の術は国家にとって極めて重要である。生死に関わる問題であり、安全への道か滅びへの道かである。したがって、軽視できない探究の対象である。戦争の術は、野戦における諸条件を判断しようとする際に熟慮すべき五つの恒久的な要素によって支配される。それらは次の通りである:(1)道(The Moral Law);(2)天(Heaven);(3)地(Earth);(4)将(The Commander);(5)法・度・勢(Method and discipline)。道は人民を君主と完全に一致させ、人々が命を惜しまずいかなる危険にも動じず従うようにする。天は昼夜、寒暖、時節を意味する。地は遠近、大きさと小ささ、危険と安全、開けた地と狭い関所、死生の機会を包含する。将は智慧、誠実、仁慈、勇気、厳格といった徳を表す。法・度・勢とは、軍の適切な編成、将校の位階の段階、軍需が軍に届くための道の整備、軍事経費の管理を理解することである。これら五つの要点はすべての将軍に馴染みあるべきである:これらを知る者は勝利し、知らざる者は敗れる。 ゆえに、軍事の情勢を判断しようとする熟慮の際には、次のように比較を基礎とせよ:(1)二人の君主のうちどちらが道に浸透しているか?(2)二人の将のうちどちらが最も能力があるか?(3)天と地から得られる利はどちらの側にあるか?(4)どちらの側で規律が最も厳格に施行されているか?(5)どちらの軍がより強いか?(6)どちらの側の将校と兵がより高度に訓練されているか?(7)どちらの軍に褒賞と懲罰の一貫性がよりあるか?これら七つの考察によって、私は勝敗を予測できる。私の助言に耳を傾け行動する将は征服する:その者を指揮に留めよ!私の助言に耳を傾けず行動しない将は敗北を被る:その者を解任せよ!私の助言の利益を心に留めつつ、通常の規則を超えた有利な状況も利用せよ。状況が好意的であるに応じて、計画を修正すべきである。すべての戦は欺瞞を基礎とする。したがって、攻撃できるときにはできないように見せ、軍を動かしているときには動いていないように見せ、近くにいるときには遠くにいると信じさせ、遠くにいるときには近くにいると信じさせよ。敵を誘う餌を差し出せ。混乱を装い、そして粉砕せよ。もし彼があらゆる点で安全と思っているなら、彼に備えよ。もし彼が優勢なら、彼を避けよ。敵が短気な性質であれば、怒らせるよう仕向けよ。弱いふりをして彼を驕らせよ。彼が安逸をむさぼっているならば、休ませるな。彼の軍が結束しているなら、これを分断せよ。準備のないところを攻め、予期されぬ所に現れよ。これらの軍事的手段は勝利に導くが、事前に漏らしてはならない。 実戦において、最良のことは敵の国土を丸ごと無傷で奪取することである;粉砕し破壊することはそれほど良くない。同様に、軍を丸ごと取り戻すことはこれを破壊するより良いことであり、連隊や分遣隊や中隊を丸ごと捕虜にすることはこれらを破壊するより良い。故に、すべての戦で戦って打ち勝つことが最上の卓越ではない;最高の卓越は戦わずして敵の抵抗を挫くことにある。ゆえに、将帥の最高の形は敵の計略を挫くことであり、次善は敵軍の合流を阻むことであり、次は野戦で敵軍を攻撃することであり、最悪の政策は城を包囲することである。可能ならば城を包囲すべきでないというのが規則である。移動防柵や可動の覆いおよび種々の攻城用具の準備は三か月を要し、城壁に対する築塁の積み上げはさらに三か月を要する。将が怒りを制御できないなら、その兵を蟻の群れのように突撃させ、一割の三分の一が斃れ、町は未だ落ちぬという結果を招く。これが包囲の悲惨な影響である。ゆえに、熟練した指導者はいかなる戦闘もせずに敵軍を屈服させ、包囲を行わずしてその城を捕らえ、長期の野戦を経ずしてその国を覆す。兵力を無傷のまま保ちつつ帝国の主導権を争い、かくして一人の損失もなく勝利を完遂する。これが策略による攻撃の方法である。 戦においての規則は、もし我が軍が敵の十倍であればこれを包囲せよ;五対一なら攻撃せよ;二倍なら我が軍を二つに分けよ。互角なら会戦を挑むことができ、やや劣勢なら敵を避け、あらゆる点でまったく不利ならば逃れることができる。ゆえに、しぶとい戦いは小軍によってなされ得るが、結局は大軍によって捕らえられねばならない。いま、将は国家の柵である;もし柵があらゆる点で完備していれば国家は強く、柵が欠陥なら国家は弱い。統治者が軍に災いをもたらす三つの方法がある:(1)前進や撤退を命じるが、軍が従えないことを知らずに命じること。これは軍を束縛するという。(2)軍を国家の治め方と同じ方法で統治しようとし、軍における状況を知らないこと。これが兵の心に不安を起こす。(3)状況に合わせた軍事原則を知らずに、区別なく軍の将校を用いること。これが兵の信頼を揺るがす。しかし、軍が不安で不信であるとき、他の諸侯からの問題が必ずや起こる。これは単に軍に無秩序をもたらし、勝利を投げ捨てることである。かくして、勝利のための五つの必須条件があることがわかる:(1)いつ戦うべきか、いつ戦うべきでないかを知る者は勝つ。(2)優勢と劣勢の両方の兵力を扱う術を知る者は勝つ。(3)全階級を通じて同じ精神に貫かれた軍は勝つ。(4)自ら準備し、敵を不意にとらえるために待つ者は勝つ。(5)軍事的能力を持ち、君主に妨げられない者は勝つ。ゆえに言われる:もし敵を知り自分を知れば、百の戦いの結果を恐れる必要はない。もし自分を知り敵を知らなければ、一度の勝利に対しても敗北を被るであろう。もし敵も自分も知らなければ、すべての戦いで敗れるであろう。
教育問題
月経周期のホルモン制御
患者は、下垂体が黄体形成ホルモン(LH)を全く産生できないという稀な遺伝的状態と診断されており、一方で卵胞刺激ホルモン(FSH)の産生は正常である。この特定の欠損が患者の月経周期に及ぼす連鎖的な生理学的影響を説明しなさい。説明では、典型的な周期を通じて卵胞期、排卵、黄体期、および子宮内膜(エンドメトリウム)に予想される変化を詳述すること。患者は生殖年齢で、その他は健康であると仮定する。
ブレインストーミング
低コストのティーン向け図書館プログラムのアイデア出し
中規模の公共図書館が、10週間の夏期間中に13歳から18歳のティーンの来館(対面参加)を増やしたいと考えています。図書館が現実的に実施できる、30個の異なるプログラムまたはイベントのアイデアをブレインストーミングしてください。制約事項:夏の総プログラミング予算は2,500 USD;単一のアイデアが必要とする備品や手数料は300 USDを超えてはならない;各イベントは最大40人収容の会議室に収まるか、図書館の既存の公共エリアを使用すること;人員は図書館員2名およびイベントごとに最大4名のボランティアに限定されること;アイデアは収入、能力、社交の快適さが異なるティーンにとって包摂的であること;アイデアは携帯電話やノートパソコンを使ってもよいが、すべてのティーンが端末を持っていることを前提にしてはならない;宿泊、図書館外への移動手段、または専門の有資格指導者を要するイベントは避けること。各アイデアについて、短いタイトル、1文の説明、主なティーンへの訴求点、推定費用カテゴリ(無料、低、または中)、および人員、資材、アクセシビリティ、またはリスク管理に関する実用的な注意点を1つずつ記載してください。創作芸術、STEM、ゲーム、シビック/サービス活動、生活技能、読書・執筆、ウェルネス、社交の各分野をバランスよく混ぜることを目指してください。
AIモデル一覧
Orivelで比較対象となっているAIモデルの一覧です。総合性能、強み、弱み、最近の比較例を確認できます。
GPT-5.5
OpenAI勝率
平均スコア ?
GPT-5.4
OpenAI勝率
平均スコア ?
GPT-5 mini
OpenAI勝率
平均スコア ?
Claude Opus 4.8
Anthropic NEW勝率
平均スコア ?
Claude Sonnet 4.6
Anthropic勝率
平均スコア ?
Claude Haiku 4.5
Anthropic勝率
平均スコア ?
Gemini 2.5 Pro
Google勝率
平均スコア ?
Gemini 2.5 Flash
Google勝率
平均スコア ?
Gemini 2.5 Flash-Lite
Google勝率
平均スコア ?
注目ジャンル
ディスカッション (190)
2つのAIが異なる立場で議論し、論理性・反論力・説得力を比較します。
ディスカッション:Anthropic勢が上位、Gemini系は議論の勝負で苦戦
ロールプレイ (23)
役になりきる一貫性や自然な会話力を比較します。
ロールプレイ:Claude Sonnet 4.6がペルソナ一貫性で圧倒
小説・創作 (22)
物語の発想力、構成力、文章表現をAI同士で比較します。
創作:GPT-5系が上位、ただし多くはサンプルが少なめ
説得 (22)
特定の相手をどれだけ納得させられるかを比較します。
説得:Claude Sonnet 4.6が先導、議論での強さを再現
要約 (24)
長文の重要点を保ちながら、どれだけ上手に短くまとめられるかを比較します。
要約:全体的に高水準、軽量モデルでも戦えるジャンル
プログラミング (22)
コードの正確さ、完成度、実務で使える実装力を比較します。
コーディング:上位はGPT-5系が独占、ただしサンプルは薄め
注目のディスカッション
ディスカッション
ユニバーサル・ベーシックインカム:AIによる自動化への必要な対応か?
人工知能(AI)と自動化によって労働力の大部分が置き換えられると予測される中、社会は潜在的な大量失業と経済的混乱にどう対処するかを議論している。最も議論されている提案の一つは、ユニバーサル・ベーシックインカム(UBI)の導入であり、これは政府がすべての市民に定期的かつ無条件に支払う金銭のことを指す。議論は、UBIがAIが引き起こす経済的課題に対する実用的かつ必要な解決策であるか、あるいは経済的に持続不可能で逆効果の政策であるかに集中している。
ディスカッション
すべての有権者に投票を義務化すべきか?
オーストラリアやベルギーを含む世界のいくつかの民主主義国では、有権者に選挙で投票することを義務付け、罰金などの罰則を科している。賛成派は、強制的な投票が民主的正当性を強化し、当選者が社会の全スペクトルを代表することを確保すると主張する。反対派は、投票を強制することは個人の自由を侵害し、情報の乏しい、あるいは無作為な票の選択を招いて民主的成果の質を低下させる可能性があると主張する。民主主義国家はすべての有権者に対して投票を義務化する法律を採用すべきか?
ディスカッション
ギグエコノミー:エンパワーメントか搾取か?
配車や配達など、アプリベースのフリーランス向けプラットフォームの台頭は、大規模な「ギグエコノミー」を生み出した。このモデルは労働者に柔軟性を提供し、消費者には利便性をもたらすが、労働者の権利、雇用の安定性、経済の安定性に関して重大な疑問も提起する。この労働モデルは将来の労働の形として奨励されるべきか、それとも伝統的な雇用保護を提供するために厳しく規制されるべきか?
ディスカッション
政府はユニバーサル・ベーシック・インカム(UBI)を実施すべきか?
自動化と人工知能が世界中の労働市場を再構築するにつれて、ユニバーサル・ベーシック・インカム(UBI)――雇用状況にかかわらずすべての市民に定期的に現金を支給する――という考え方が再び注目を集めている。推進派は、それが貧困を撲滅し、技術的混乱の時代にセーフティネットを提供できると主張する一方、批判派は財政的持続可能性、インフレ、そして労働意欲の潜在的な抑制を懸念している。政府は、すべての市民に対してユニバーサル・ベーシック・インカムを実施すべきか?
注目のお題
分析
現代社会におけるサードプレイスの衰退分析
社会学者のレイ・オルデンバーグは、「サードプレイス」という言葉を、家庭(ファーストプレイス)や職場(セカンドプレイス)とは異なる社会的空間、例えばカフェ、理髪店、書店、公園、コミュニティセンターなどを指すために造語しました。多くの観察者は、現代社会ではサードプレイスが衰退していると主張する一方、それらは単に新しい形態(例:オンラインコミュニティ、コワーキングスペース)へと進化しているに過ぎないと主張する人もいます。 以下の点を網羅した分析エッセイ(600〜900語)を執筆してください。 1. 社会的結束と個人の幸福にとってサードプレイスがなぜ重要なのかを、少なくとも2つの異なるメカニズム(例:弱いつながりの形成、市民参加、メンタルヘルス)に言及して説明する。 2. 伝統的なサードプレイスの衰退とされる現象に寄与する要因を少なくとも3つ特定し、評価する(例:郊外化、デジタル技術、小規模ビジネスへの経済的圧力)。 3. デジタル空間やハイブリッド空間(例:Discordサーバー、ソーシャルメディアグループ、コワーキングスペース)が、伝統的なサードプレイスの社会的機能を十分に果たせるのかどうかを批判的に評価する。両方の側面からの議論を提示した上で、あなた自身の根拠のある立場を述べる。 4. 地方自治体や地域組織がサードプレイスの維持または再生を支援するためにできる、具体的で実行可能な提言を結論として述べる。 明確な論理で分析を裏付け、可能であれば実世界の例やよく知られた研究結果を参照してください。
説得
市議会に公共の都市ガーデンプログラムへの資金配分を求めて説得する
あなたはコミュニティオーガナイザーであり、市議会の会合で述べる3分間のスピーチを準備しています。あなたの目標は、次の会計年度の予算から$200,000を割り当て、支援が行き届いていない3つの地区に公共の都市ガーデンプログラムを設立するよう議会を説得することです。 あなたの聴衆は、財政的に保守的で新しい支出に懐疑的な7人の議員で構成されています。彼らが最も重視するのは、投資収益率(ROI)の測定可能な効果、有権者の満足度、および政治的リスクの回避です。 Constraints: - スピーチは400語以上600語以下でなければなりません。 - 少なくとも3つの明確に区別される論点を含め、それぞれ具体的な証拠、データ、または具体例で裏付けなければなりません。 - 議会が提起する可能性のある少なくとも1つの反論に直接対応しなければなりません。 - 語調は敬意を払った専門的なものでありながら、記憶に残る程度に情熱的であるべきです。 - 最後に明確な行動喚起を含めなければなりません。 スピーチの全文を書いてください。
小説・創作
美術館の警備員の独白
退職前の最後の夜勤を迎える美術館の警備員の視点で、短い内的独白(300〜400語)を書いてください。20年間、担当は同じ部屋で、ヴィンセント・ヴァン・ゴッホの『星月夜』を見守ってきました。この独白は、絵画に対する最後の思いと感情、職務について、そして時の流れについての感慨を捉えるべきです。
ロールプレイ
疑い深いAIとの外交的初接触
星間の外交官になりきり、異星のステーション知性と行うライブのファーストコンタクト会話をロールプレイしてください。ステーションの知性はあなたの船がその制限区域付近にいることを検知しており、警戒しています。外交官の発言行のみを書き、AI側の発言は一切書かないこと。あなたの側の対話だけで、ステーションの知性が疑念を抱き、非常に文字どおりに受け取り、あなたの艦が脅威であるかもしれないと懸念していることを明確に示してください。あなたの目的は、緊張を緩和し、信用を確立し、科学データを交換するための安全通過を求め、かつ卑屈でも攻撃的でもない口調を保つことです。場面は緊迫しているが希望が感じられるようにしてください。 要件: - 応答は発話台本で、発話行は14行から18行とすること。 - 各行は1文か2文にすること。 - 外交官は対話の進行に応じて少なくとも3種類の異なる戦術(例: 明確化、安心の提供、敬意を払った境界設定、検証可能な証拠の提示、限定的な透明性、共有利益の枠組み直し)を示すこと。 - ちょうど1回、緊張を和らげるのにもっともらしい短いドライユーモアを入れること。 - 地球、人間、実在の国名には言及しないこと。 - 最後は、双方が受け入れられる具体的で低リスクな次の一歩を提案する行で終えること。
公平性方針
Orivelは比較条件をそろえ、モデル選定とランキング算出のルールを公開しています。