Gemini 3とは?

概要 Gemini 3

  • Gemini 1
    ネイティブマルチモーダル性とロングコンテキストウィンドウにおける画期的な進歩により、処理できる情報の種類とその量を拡大
  • Gemini 2
    エージェント機能の基盤を築き、推論と思考の限界を押し広げ、より複雑なタスクやアイデアの実行を支援
  • Gemini 3(Google 社が 2025 年11 月19 日に発表)
    あらゆるアイデアを実現する、最もインテリジェントなモデル

主な特徴

  1. 統合された最上位モデル
    • Gemini シリーズの前モデル(Gemini 1/Gemini 2)で培った「マルチモーダル」理解と「エージェント機能(思考・推論・道具使用)」を、Gemini 3 で統合・強化しました。
  2. 高度な推論・マルチモーダル理解
    • テキストだけでなく、画像・動画・音声・コードなど複数の情報モダリティを一体的に理解・処理できる能力が強化されています。
  3. 開発者・エンタープライズ向け機能強化
    • 開発者向けに「エージェントコーディング」など、新たなワークフローをサポート。
    • エンタープライズ用途では、データやシステムをまたいだ長時間・複雑な処理(例:契約書解析、サプライチェーン計画など)に対応
    • モデルと IDE の連携をさらに進化させるため、Google Antigravity を導入し、Gemini 3 と連携 ※
  4. 検索・一般ユーザー向けへの統合
    • Google Search の「AI モード」にも Gemini 3 を活用
    • モデルが「理解→生成→対話/操作」という流れを補強することで、単純な回答だけではなく“深い意図理解”を目指す
  5. 安全性・責任ある開発
    • モデルの能力強化と同時に、リスク(例:誤情報、悪用、偏り)への対応も明言されています。

関連

※Google Antigravityの概要・インストール方法・使い方については、こちらの記事で解説しています↓

ベンチマーク

推論・視覚・コード・事実性・長文のすべてに強い、総合力の高い汎用モデル

出典:https://blog.google/products/gemini/gemini-3/#gemini-3
出典:https://blog.google/products/gemini/gemini-3/#gemini-3

Gemini 3 Proが他のモデルと比較して何倍の性能を示すか計算しました。

推論・視覚・コード・事実性・長文のほぼすべてにおいて性能が良く、特にMathArena Apex(困難な数学コンテスト問題)とScreenSpot-Pro(画面スクリーニング)においてはGPT-5.1と比較して20倍以上の性能を示しました。

BenchmarkDescription (Japanese Translation)Gemini 3 ProGemini 2.5 Pro (倍率)Claude 4.5 Sonnet (倍率)GPT-5.1 (倍率)
Humanity’s Last Exam学術的な推論37.50%
(45.8%)
21.6% (≈ 1.74倍)13.7% (≈ 2.74倍)26.5% (≈ 1.42倍)
ARC-AGI-2視覚的なパズル推論31.10%4.9% (≈ 6.35倍)13.6% (≈ 2.29倍)17.6% (≈ 1.77倍)
GPQA Diamond科学的な知識91.90%86.4% (≈ 1.06倍)83.4% (≈ 1.10倍)88.1% (≈ 1.04倍)
AIME 2025数学 (コード実行あり)95.00%88.0% (≈ 1.08倍)87.0% (≈ 1.09倍)94.0% (≈ 1.01倍)
MathArena Apex困難な数学コンテスト問題23.40%0.5% (≈ 46.80倍)1.6% (≈ 14.63倍)1.0% (≈ 23.40倍)
MMM-U-Proマルチモーダルな理解と推論81.00%68.0% (≈ 1.19倍)68.0% (≈ 1.19倍)76.0% (≈ 1.07倍)
ScreenSpot-Pro画面スクリーニング72.70%11.4% (≈ 6.38倍)36.2% (≈ 2.01倍)3.5% (≈ 20.77倍)
CharXiv Reasoning複雑なチャートからの情報合成81.40%69.6% (≈ 1.17倍)68.5% (≈ 1.19倍)69.5% (≈ 1.17倍)
OmniDocBench 1.5OCR (全体編集距離。低いほど良い)0.1150.145 (≈ 1.26倍)0.145 (≈ 1.26倍)0.147 (≈ 1.28倍)
Video-MMMU動画からの知識獲得87.60%83.6% (≈ 1.05倍)77.8% (≈ 1.13倍)80.4% (≈ 1.09倍)
LiveCodeBench Pro競技プログラミング問題 (Do Rating、高いほど良い)2,4391,775 (≈ 1.37倍)1,418 (≈ 1.72倍)2,243 (≈ 1.09倍)
Terminal-Bench 2.0エージェント型コーディング54.20%32.6% (≈ 1.66倍)42.8% (≈ 1.27倍)47.6% (≈ 1.14倍)
SWE-Bench Verifiedエージェント型コーディング (シングルアテンプト)76.20%59.6% (≈ 1.28倍)77.2% (≈ 0.99倍)76.3% (≈ 1.00倍)
t2-benchエージェント型ツール使用85.40%54.9% (≈ 1.55倍)84.7% (≈ 1.01倍)80.2% (≈ 1.06倍)
Vending-Bench 2長期間のエージェントタスク (純資産、高いほど良い)$5,478.16$573.64 (≈ 9.55倍)$3,838.74 (≈ 1.43倍)$1,473.43 (≈ 3.72倍)
FACTS Benchmarks Suite内部グラウンディング、パラメータ、MM、検索ベンチマーク70.50%63.4% (≈ 1.11倍)50.4% (≈ 1.40倍)50.8% (≈ 1.39倍)
SimpleQA Verifiedパラメトリック知識72.10%54.5% (≈ 1.32倍)29.3% (≈ 2.46倍)34.9% (≈ 2.07倍)
MMMLU多言語のQ&A91.80%89.5% (≈ 1.03倍)89.1% (≈ 1.03倍)91.0% (≈ 1.01倍)
Global PIQA100言語以上を対象とした包括的な推論93.40%91.6% (≈ 1.02倍)90.1% (≈ 1.04倍)90.9% (≈ 1.03倍)
MRCR v2 (8-needle)長文コンテキストのパフォーマンス (128k(average))77.00%58.0% (≈ 1.33倍)47.1% (≈ 1.64倍)61.6% (≈ 1.25倍)
長文コンテキストのパフォーマンス (1M(pointwise))26.30%16.4% (≈ 1.60倍)非対応非対応

関連

※Google Antigravityの概要・インストール方法・使い方については、こちらの記事で解説しています↓

参考リンク

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

AIアーティスト | エンジニア | ライター | 最新のAI技術やトレンド、注目のモデル解説、そして実践に役立つ豊富なリソースまで、幅広い内容を記事にしています。フォローしてねヾ(^^)ノ

コメント

コメントする