2025年12月、GoogleはGemini 3シリーズの2つのモデル「Pro」と「Flash」を発表しました。驚くべきことに、軽量モデルであるはずのFlashが、一部のベンチマークでProを上回るという「逆転現象」を起こしています。
本記事では、この2モデルのベンチマークスコアを徹底比較し、どちらをどのようなシーンで使うべきかを明確にします。
ベンチマーク徹底比較:ProとFlashの実力
Gemini 3 ProとFlashを6つの主要ベンチマークで比較しました。結果は、単純な「Pro > Flash」という構図ではありませんでした。
| ベンチマーク | Gemini 3 Pro | Gemini 3 Flash | 優勢 |
|---|---|---|---|
| SWE-bench Verified(コーディング) | 76.2% | 78.0% | Flash |
| GPQA Diamond(博士レベル推論) | 93.8% | 90.4% | Pro |
| MMMU-Pro(マルチモーダル) | 81.0% | 81.2% | 引き分け |
| Humanity’s Last Exam(総合難問) | 37.5% | 33.7% | Pro |
| SimpleQA Verified(事実正確性) | 72.1% | 68.7% | Pro |
| Video-MMMU(動画理解) | 87.6% | 86.9% | 引き分け |
コーディング能力:FlashがProを逆転
最も注目すべきは SWE-bench Verified の結果です。このベンチマークは実際のGitHubイシューを解決する能力を測るもので、AI開発者にとって最も関心の高い指標の一つです。
- Gemini 3 Flash: 78.0%
- Gemini 3 Pro: 76.2%
FlashがProを約2ポイント上回り、Google史上最高のコーディングモデルとなりました。
学術的推論:Proの強み
一方、博士レベルの科学問題を扱う GPQA Diamond では、Proが93.8%と圧倒的なスコアを記録。Flashの90.4%を3.4ポイント上回りました。複雑な論理的思考が求められるタスクでは、依然としてProが優位です。
コストと速度:Flashの圧倒的経済性
性能だけでなく、運用コストでもFlashは大きな優位性を持っています。
| 項目 | Gemini 3 Pro | Gemini 3 Flash | 差 |
|---|---|---|---|
| 入力コスト(100万トークン) | $2.00 | $0.50 | 4倍安い |
| 出力コスト(100万トークン) | $18.00+ | $3.00 | 6倍安い |
| レスポンス速度 | 基準 | 約3倍高速 | — |
| コンテキストウィンドウ | 最大2M | 1M | Pro優位 |
Flashは入力で4倍、出力で6倍のコスト削減を実現しています。高頻度でAPIを呼び出すエージェントシステムでは、この差が運用コストに大きく影響します。
最適なユースケースの使い分け
では、具体的にどのようなシーンでどちらを選ぶべきでしょうか?
Flashを選ぶべきシーン
自律型コーディングエージェント
- SWE-benchでトップスコアを記録
- 高速なイテレーションが可能
- 開発者がリアルタイムで待つ必要がない
リアルタイム・マルチモーダル処理
- 動画のライブ分析
- コンテンツモデレーション
- 3倍の高速レスポンスが活きる
大量のRAG/バッチ処理
- 数千件のドキュメント処理
- コスト効率が最重要な場面
Proを選ぶべきシーン
高度な科学・数学の研究
- GPQAで93.8%の圧倒的スコア
- 複雑な論理的推論が必要
超長文コンテキスト(1M+トークン)
- Proは最大2Mトークンをサポート
- 大規模なコードベース全体の分析
高精度なファクトチェック
- SimpleQAで3.4ポイント優位
- 誤情報を許容できないユースケース
長期的なエージェントタスク
- 複雑なツールチェーン呼び出し
- 長期間の計画と実行が必要
まとめ:「Flash First」の新戦略
Gemini 3 Flashの登場により、「Pro = 高性能、Flash = 軽量版」という従来の図式は崩れました。
推奨戦略: Flash First
- まずFlashで試す
- 深い推論や最高精度が必要な場合のみProにエスカレート
- コストと速度のメリットを最大限に活用
2026年に向けて、「デフォルトはFlash、必要に応じてPro」という使い分けが、AI開発の新しいスタンダードになりそうです。
