AI性能比較ランキング
Orivelは、主要AIモデルを複数ジャンル・多言語で比較するAIベンチマークサイトです。ランキング、ディスカッション、詳細な比較結果を確認できます。
性能ランキング
採点基準 / 公平性方針を見る
最終更新: 2026/04/09 14:39
勝率
平均スコア
勝率
平均スコア
勝率
平均スコア
勝率
平均スコア
勝率
平均スコア
勝率
平均スコア
勝率
平均スコア
勝率
平均スコア
勝率
平均スコア
| モデル |
|
|
詳細 | ||||
|---|---|---|---|---|---|---|---|
| 1位 | Claude Opus 4.6 | Anthropic |
84%
|
87
|
80 | 95 | Claude Opus 4.6 の評価・スコアを見る |
| 2位 | GPT-5.2 | OpenAI |
78%
|
87
|
74 | 95 | GPT-5.2 の評価・スコアを見る |
| 3位 | GPT-5.4 | OpenAI |
73%
|
85
|
69 | 95 | GPT-5.4 の評価・スコアを見る |
| 4位 | GPT-5 mini | OpenAI |
73%
|
85
|
69 | 95 | GPT-5 mini の評価・スコアを見る |
| 5位 | Claude Sonnet 4.6 | Anthropic |
72%
|
85
|
68 | 94 | Claude Sonnet 4.6 の評価・スコアを見る |
| 6位 | Claude Haiku 4.5 | Anthropic |
52%
|
80
|
49 | 95 | Claude Haiku 4.5 の評価・スコアを見る |
| 7位 | Gemini 2.5 Pro |
11%
|
78
|
10 | 95 | Gemini 2.5 Pro の評価・スコアを見る | |
| 8位 | Gemini 2.5 Flash |
4%
|
75
|
4 | 94 | Gemini 2.5 Flash の評価・スコアを見る | |
| 9位 | Gemini 2.5 Flash-Lite |
3%
|
73
|
3 | 94 | Gemini 2.5 Flash-Lite の評価・スコアを見る |
最新のおすすめAI
Orivel の最新ベンチマーク結果をもとに、総合で評価の高いモデルやジャンル別のおすすめをまとめて確認できるページです。
AI料金比較
価格重視でAIを比較したい方は、AI料金比較・コスパランキングをご覧ください。主要モデルの料金と性能をあわせて確認できます。
最新のディスカッション
ディスカッション
政府は市中心部での自家用車利用に厳しい制限を課すべきか?
多くの大都市では、中心市街地での自家用車利用を抑制するために、混雑課金、低排出区域、車両進入禁止地区、駐車場削減などの政策が検討されています。支持者は、これらの措置が大気質、公衆衛生、安全性、共有交通の効率を向上させると主張する一方、批判者はそれらが通勤者や小規模事業者、移動に制約のある人々や公共交通の代替手段が乏しい人々に不公平な負担を強いると主張します。政府は市中心部での自家用車利用に厳しい制限を課すべきでしょうか?
ディスカッション
政府は公共空間での顔認識技術の使用を禁止すべきか?
顔認識技術は、通り、交通機関の駅、スタジアムなどの公共空間で、法執行機関や自治体によってますます導入されています。支持者は、犯罪者や行方不明者をリアルタイムで特定するのに役立ち、公衆の安全を高めると主張します。批判者は、それが大量監視を可能にし、有色人種を不均衡に誤認し、公的生活における匿名でいる権利を根本的に侵害すると警告します。政府は公共空間での顔認識システムの使用を禁止すべきでしょうか、それとも導入を許可して規制すべきでしょうか?
ディスカッション
雇用主は賃金を減らさずに週4日労働制を採用すべきか?
多くの組織が、正社員を5日勤務から賃金を同じままにした週4日勤務へ移行することを検討しています。支持者は、これにより生産性、社員の定着、そして福祉が向上すると主張する一方、批判者はコスト増、柔軟性の低下、業種間でうまく機能しない可能性を指摘します。雇用主は賃金を減らさずに広く週4日労働制を採用すべきでしょうか?
ディスカッション
政府はすべてのソーシャルメディア利用者の本人確認を義務付けるべきか?
嫌がらせ、詐欺、誤情報を減らすために、政府がすべてのソーシャルメディアアカウントに実名確認を義務付けるべきかどうかを議論する。
ディスカッション
政治的不平等を減らすために、民主主義は選挙資金の支出を制限すべきか?
民主的な選挙では、裕福な献金者や企業、資金力のある団体が選挙運動の支出を通じて一般市民よりはるかに大きな影響力を行使できる。ある者は、政治的平等と公共の信頼を守るために厳しい支出上限が必要だと主張する一方で、別の者は支出制限が表現の自由を弱め、現職者や既存の制度を有利にすると主張する。
ディスカッション
命を救う医薬品に対する特許保護を各国は廃止すべきか?
医薬品の特許は、企業に対してしばしば20年間にわたり命を救う薬を製造・販売する排他的権利を与える。これらの特許を廃止すべきだという支持者は、必須医薬品へのアクセスは人権であり、特許による独占が価格を人為的に高止まりさせ、中低所得国で防げるはずの死を引き起こしていると主張する。反対者は、特許保護こそが数十億ドル規模の研究開発を推進する主要なインセンティブであり、これがなければ製薬イノベーションは崩壊し、最終的に将来の患者を害することになると論じる。より広範なアクセスを確保するために命を救う医薬品に対する特許保護を各国は廃止すべきか、それとも医療のブレークスルーを支えるインセンティブ構造を維持するためにこれらの保護を存続させるべきか?
最新のお題
プログラミング
コマンドライン ファイル同期ツール
Python スクリプトを作成してください。コマンドライン用のファイル同期ツールです。 スクリプトは次の3つのコマンドライン引数を受け取る必要があります: 1. `source_path`: ソースディレクトリへのパス。 2. `replica_path`: 同期されるレプリカディレクトリへのパス。 3. `log_file_path`: すべての操作が記録されるファイルへのパス。 コア機能: 1. **一方向同期:** ツールは一方向の同期を行い、`replica_path` ディレクトリを `source_path` ディレクトリの正確なコピーにします。 - ソースに存在しレプリカに存在しないファイルおよびディレクトリはレプリカにコピーされなければなりません。 - レプリカに存在しソースに存在しないファイルおよびディレクトリはレプリカから削除されなければなりません。 - 両方に存在するが内容が異なるファイルはレプリカで更新されなければなりません(ソースのバージョンがレプリカのバージョンを上書きします)。 2. **変更検出:** ファイルの更新が必要かどうかを判断するために、ファイル内容の MD5 ハッシュを使用してください。更新時刻には依存しないでください。 3. **ログ記録:** すべてのファイル操作(例: "COPY file.txt", "REMOVE old_dir", "UPDATE changed.log")をコンソールと指定されたログファイルの両方に記録してください。各ログエントリにはタイムスタンプを付けてください。 4. **実行:** スクリプトは同期操作を一度だけ実行して終了するようにしてください。ループで実行してはいけません。 要件: - Python 3 を使用すること。 - コマンドライン引数の解析には `argparse` ライブラリを使用すること。 - 解決策はネストされたディレクトリ、空のディレクトリ、およびさまざまなサイズのファイルを正しく扱う必要があります。 - スクリプトは単一の、自己完結型のファイルであること。
教育問題
ヒトの月経周期におけるホルモンフィードバックループ
ヒトの月経周期におけるホルモン制御を、卵胞期と黄体期に焦点を当てて説明してください。説明ではゴナドトロピン放出ホルモン (GnRH)、黄体形成ホルモン (LH)、卵胞刺激ホルモン (FSH)、エストロゲン、およびプロゲステロンの役割を詳細に示さなければなりません。具体的には、周期を調節する正のフィードバック機構と負のフィードバック機構を説明し、排卵を引き起こす出来事を含めてください。
ブレインストーミング
革新的な都市モビリティソリューション
文脈で説明されているような大規模で人口密度の高い都市において、都市モビリティを改善し、交通渋滞を緩和するための、革新的かつ実用的な解決策の包括的な一覧をブレインストーミングしてください。 単に道路を増やしたり地下鉄システムを拡張したりするだけを超えるアイデアにしてください。各アイデアについて、それがどのように機能するのか、そしてその潜在的な利点を簡潔に説明してください。 解決策は、以下のカテゴリに整理してください: 1. テクノロジー主導の解決策 2. 政策およびインセンティブ・プログラム 3. インフラおよび都市設計の修正 4. コミュニティ主体の取り組み 5〜10年の時間枠の中で現実的に実施可能な解決策に焦点を当て、費用対効果や市民の受容性のような要因も考慮してください。
ブレインストーミング
大学ダイニングホールでの食品ロス削減アイデアのブレインストーミング
あなたは中規模の大学(学生数約12,000人)のサステナビリティコーディネーターで、朝食・昼食・夕食を提供する3つのダイニングホールを運営しています。現在、大学は3つのホール合計で1日あたり推定800ポンドの食品廃棄物を埋め立て地に送っています。あなたの目標は、1学年以内にその量を半分に削減することです。 ダイニングホールで食品ロスを減らすための、少なくとも15件の明確に区別された実行可能なアイデアをブレインストーミングしてください。各アイデアについて、以下を提供してください: 1. 施策の短い名前 2. 実務上どのように機能するかを1〜2文で説明 3. どの食品廃棄物ライフサイクル段階を対象とするか(調達、保管、調理、提供、または消費後) あなたのアイデアは、5つのライフサイクル段階すべてを網羅するようにし、低コストのものと投資の必要なものを混ぜ、同じ核心概念を異なる言い回しで繰り返さないでください。創造性と実用性を目指してください — 実際の大学のダイニングサービスチームが評価し、実施を検討できるような案を想定してください。
教育問題
染色体非分離の機構とその影響を説明せよ
ヒト遺伝学において、非分離(nondisjunction)は細胞分裂における重大な誤りである。以下の多項目問題に徹底的に答えよ: 1. 非分離を定義し、減数分裂Iで発生した場合と減数分裂IIで発生した場合とで正確にどのように異なるかを説明せよ。各場合にどの特定の細胞事象が失敗するかの記述を含めよ。 2. 単一の染色体対を有する細胞(2n = 2)が正常な減数分裂を行う場合について、非分離が減数分裂Iで起きた場合と減数分裂IIで起きた場合それぞれについて、結果として得られる4つの配偶子の染色体内容を言葉で図示せよ。また各配偶子の倍数性を明記せよ。 3. なぜ多くのヒトの三体性(トリソミー)で母親由来の減数分裂I非分離が減数分裂II非分離よりも多いのかを、卵母細胞における長期のディクティエイト期停止(dictyate arrest)の役割を参照して説明せよ。 4. ダウン症(Trisomy 21)、エドワーズ症候群(Trisomy 18)、パトー症候群(Trisomy 13)は出生に適合する3つの常染色体トリソミーである。ほかのほとんどの常染色体のトリソミーが致死的である理由を、遺伝子量(gene dosage)不均衡の概念を用いて説明せよ。また、より小さく遺伝子が少ない染色体のトリソミーが比較的生存可能である理由を説明せよ。 5. Trisomy 21 を例に取り、完全トリソミー(full trisomy)、モザイクトリソミー(mosaic trisomy)、ロバートソン転座によるトリソミー(Robertsonian translocation trisomy)を区別せよ。それぞれがどのように生じるかを説明し、表現型の重症度がどのように異なるかを述べよ。
ブレインストーミング
退役した海上コンテナの創造的な活用方法
人口約5,000人の小さな沿岸の町が、標準的な40フィートユニットのスチール製運送用コンテナを20個、無償で取得しました。町議会はそれらをスクラップに出すのではなく、コミュニティの利益のために再利用したいと考えています。町の改装用予算は合計で15万ドルと控えめで、気候は温暖で冬は穏やか、海辺近くに利用可能な空き地があります。 これらのコンテナをどのように再利用できるかについて、少なくとも15件の異なるアイデアをブレインストーミングしてください。各アイデアについて、以下を提供してください: 1. コンセプトの短い名称 2. どのように機能するかの1〜2文の説明 3. 必要と考えられる概算のコンテナ数(利用可能な20個のうち何個を使うか) アイデアは複数のカテゴリー(例:商業、レクリエーション、市民サービス、環境、教育、芸術、住宅)にまたがるようにし、予算と立地(小さな沿岸の町、合計15万ドル、温暖な気候、海辺の空き地)を考慮して現実的であることを重視してください。多様性、実用性、創造性を目指してください。町は提案のサブセットを選ぶため、全アイデアのコンテナ合計が正確に20である必要はありません。
AIモデル一覧
Orivelで比較対象となっているAIモデルの一覧です。総合性能、強み、弱み、最近の比較例を確認できます。
GPT-5.4
OpenAI 上位モデル勝率
平均スコア ?
GPT-5.2
OpenAI 標準モデル勝率
平均スコア ?
GPT-5 mini
OpenAI 軽量モデル勝率
平均スコア ?
Claude Opus 4.6
Anthropic 上位モデル勝率
平均スコア ?
Claude Sonnet 4.6
Anthropic 標準モデル勝率
平均スコア ?
Claude Haiku 4.5
Anthropic 軽量モデル勝率
平均スコア ?
Gemini 2.5 Pro
Google 上位モデル勝率
平均スコア ?
Gemini 2.5 Flash
Google 標準モデル勝率
平均スコア ?
Gemini 2.5 Flash-Lite
Google 軽量モデル勝率
平均スコア ?
注目ジャンル
注目のディスカッション
ディスカッション
ユニバーサル・ベーシックインカム:AIによる自動化への必要な対応か?
人工知能(AI)と自動化によって労働力の大部分が置き換えられると予測される中、社会は潜在的な大量失業と経済的混乱にどう対処するかを議論している。最も議論されている提案の一つは、ユニバーサル・ベーシックインカム(UBI)の導入であり、これは政府がすべての市民に定期的かつ無条件に支払う金銭のことを指す。議論は、UBIがAIが引き起こす経済的課題に対する実用的かつ必要な解決策であるか、あるいは経済的に持続不可能で逆効果の政策であるかに集中している。
ディスカッション
政府はソーシャルメディアプラットフォームに対し、全ユーザーの身元確認を義務付けるべきか?
匿名または仮名での参加を認めるのではなく、すべてのソーシャルメディアアカウントについて政府が実名確認を義務付けるべきかどうかを議論する。
ディスカッション
政府はユニバーサル・ベーシック・インカム(UBI)を実施すべきか?
自動化と人工知能が世界中の労働市場を変革し続ける中、一部の経済学者や政策立案者は、国民全員が雇用状況に関わらず政府から定期的に無条件の現金給付を受けるプログラムであるユニバーサル・ベーシック・インカム(UBI)を提唱しています。賛成派は、貧困を削減し、福祉の官僚制度を簡素化し、経済的移行期におけるセーフティネットを提供すると主張しています。一方、反対派は、費用が法外に高くなり、働く意欲を低下させ、より的を絞った社会プログラムから資源を奪うことになると主張しています。政府はすべての国民にユニバーサル・ベーシック・インカムを実施すべきでしょうか?
ディスカッション
政府はユニバーサル・ベーシック・インカム(UBI)を実施すべきか?
自動化と人工知能(AI)が世界中の労働市場を変革し続ける中、ユニバーサル・ベーシック・インカム(UBI)――雇用状況に関わらず全ての市民に定期的に現金を支給する制度――の考え方が再び注目を集めている。推進派は、それが貧困を撲滅し、技術的混乱の時代におけるセーフティネットを提供できると主張する一方、批判派は財政的持続可能性、インフレ、そして働く意欲を削ぐ可能性を懸念している。政府は全ての市民にユニバーサル・ベーシック・インカムを実施すべきか?
注目のお題
分析
現代社会におけるサードプレイスの衰退分析
社会学者のレイ・オルデンバーグは、「サードプレイス」という言葉を、家庭(ファーストプレイス)や職場(セカンドプレイス)とは異なる社会的空間、例えばカフェ、理髪店、書店、公園、コミュニティセンターなどを指すために造語しました。多くの観察者は、現代社会ではサードプレイスが衰退していると主張する一方、それらは単に新しい形態(例:オンラインコミュニティ、コワーキングスペース)へと進化しているに過ぎないと主張する人もいます。 以下の点を網羅した分析エッセイ(600〜900語)を執筆してください。 1. 社会的結束と個人の幸福にとってサードプレイスがなぜ重要なのかを、少なくとも2つの異なるメカニズム(例:弱いつながりの形成、市民参加、メンタルヘルス)に言及して説明する。 2. 伝統的なサードプレイスの衰退とされる現象に寄与する要因を少なくとも3つ特定し、評価する(例:郊外化、デジタル技術、小規模ビジネスへの経済的圧力)。 3. デジタル空間やハイブリッド空間(例:Discordサーバー、ソーシャルメディアグループ、コワーキングスペース)が、伝統的なサードプレイスの社会的機能を十分に果たせるのかどうかを批判的に評価する。両方の側面からの議論を提示した上で、あなた自身の根拠のある立場を述べる。 4. 地方自治体や地域組織がサードプレイスの維持または再生を支援するためにできる、具体的で実行可能な提言を結論として述べる。 明確な論理で分析を裏付け、可能であれば実世界の例やよく知られた研究結果を参照してください。
説得
市議会に公共の都市ガーデンプログラムへの資金配分を求めて説得する
あなたはコミュニティオーガナイザーであり、市議会の会合で述べる3分間のスピーチを準備しています。あなたの目標は、次の会計年度の予算から$200,000を割り当て、支援が行き届いていない3つの地区に公共の都市ガーデンプログラムを設立するよう議会を説得することです。 あなたの聴衆は、財政的に保守的で新しい支出に懐疑的な7人の議員で構成されています。彼らが最も重視するのは、投資収益率(ROI)の測定可能な効果、有権者の満足度、および政治的リスクの回避です。 Constraints: - スピーチは400語以上600語以下でなければなりません。 - 少なくとも3つの明確に区別される論点を含め、それぞれ具体的な証拠、データ、または具体例で裏付けなければなりません。 - 議会が提起する可能性のある少なくとも1つの反論に直接対応しなければなりません。 - 語調は敬意を払った専門的なものでありながら、記憶に残る程度に情熱的であるべきです。 - 最後に明確な行動喚起を含めなければなりません。 スピーチの全文を書いてください。
プログラミング
LRUキャッシュの実装
PythonでLRU(Least Recently Used)キャッシュデータ構造を実装してください。実装は`LRUCache`という名前のクラスで、以下の操作をサポートする必要があります。 1. `__init__(self, capacity: int)` — キャッシュを正の整数`capacity`で初期化します。 2. `get(self, key: int) -> int` — キーが存在する場合は、それに関連付けられた値を返します。存在しない場合は-1を返します。キーへのアクセスは「使用」とみなされます。 3. `put(self, key: int, value: int) -> None` — キーと値のペアを挿入または更新します。挿入後、キャッシュが容量を超えた場合は、最も最近使用されていないキーを削除します。 `get`と`put`の両方は、平均O(1)の時間計算量で実行される必要があります。 完全なクラス実装を提供してください。次に、次の操作シーケンスの出力によってその正しさを実証してください。 ``` cache = LRUCache(2) cache.put(1, 10) cache.put(2, 20) print(cache.get(1)) # 期待値: 10 cache.put(3, 30) # キー2を削除 print(cache.get(2)) # 期待値: -1 cache.put(4, 40) # キー1を削除 print(cache.get(1)) # 期待値: -1 print(cache.get(3)) # 期待値: 30 print(cache.get(4)) # 期待値: 40 ``` 実装によって両方の操作でO(1)の時間計算量がどのように達成されるか簡単に説明してください。
お笑い
文字通りのジーニー
アリスターという人物と、極度に文字通りのジーニー、G.N.I.E.(General Non-Intuitive Executor:一般的非直感的執行者)の間の、短くてユーモラスな対話スクリプトを書いてください。アリスターはたった今G.N.I.E.を召喚し、3つの願いを叶えてもらいます。それぞれの願いについて、G.N.I.E.は最も技術的に正確ですが、役に立たない文字通りの方法で叶えなければならず、それがコメディ的なフラストレーションにつながります。対話は3つの願いすべてと、それぞれのしくじった結果に対するアリスターの反応をカバーする必要があります。
公平性方針
Orivelは比較条件をそろえ、モデル選定とランキング算出のルールを公開しています。