Gemini 3.1 Pro & Flash：Google 的推理王者与效率之王

📌 核心问题

2026 年 2 月 19 日，Google 发布 Gemini 3.1 Pro——Gemini 3 系列的首次小版本迭代，但性能提升幅度打破了"小版本=小改进"的惯例。在 ARC-AGI-2 抽象推理测试中，Gemini 3.1 Pro 拿下 77.1%，较前代 Gemini 3 Pro（31.1%）提升超过 148%，远超人类平均水平（60%）。

🔬 模型信息

发布方：Google DeepMind
发布日期：2026-02-19（Pro）、2026-03-03（Flash-Lite）、2026-04（Flash TTS）
定价：$2/1M 输入 tokens（Pro），与前代相同，性能免费升级
上下文窗口：1M tokens

🧠 核心改进

推理能力质变

ARC-AGI-2 测试衡量模型解决全新抽象问题的能力。Gemini 3.1 Pro 的 77.1% 远超前代，更超越了 Claude Opus 4.6（37.6%）和 GPT-5.2（54.2%）。GPQA Diamond 94.3%，SWE-Bench Verified 80.6%。

思维级别控制（Thinking Levels）

新增 Low/Medium/High 三档推理深度：Low 适合简单任务快速响应；Medium 平衡模式适合日常工程；High 深度推理适合复杂多步问题。开发者可按任务复杂度动态分配推理预算。

价格优势

Gemini 3.1 Pro：$2.00/1M 输入。Claude Sonnet 4.6：$3.00/1M（1.5x）。Claude Opus 4.6：$15.00/1M（7.5x）。GPT-5.2：~$10.00/1M（5x）。7.5 倍于 Opus 的价格优势，推理能力却更强。

🏗️ Gemini 3.1 Flash 家族

Flash-Lite（2026-03-03）

定价 $0.25/1M 输入 tokens，比上一代快 2.5 倍，定位高吞吐、低成本场景。

Flash TTS（2026-04）

原生语音输出模型，不再需要 Live WebSocket，标准 API 直接调用。

Flash Live（2026-03-26）

实时音频 AI，更自然、更可靠的语音交互。

📊 关键数据

代码能力：SWE-Bench Verified 80.6%（行业第一），LiveCodeBench Pro 2887 Elo，Terminal-Bench 2.0 68.5%。科学推理：Humanity's Last Exam（无工具）44.4%。Agent 能力：APEX-Agents 33.5%（超越 Opus 的 29.8%）。

🔑 关键洞察

Google 的"免费升级"策略：维持与前代完全相同的定价，却带来 2 倍以上的推理提升。直接压缩了竞争对手的定价空间。

推理效率的真正含义：不仅指速度，更指"用更少的 thinking token 达到更好的结果"。同样的 API 预算下，能处理更多复杂任务。

1M 上下文的战略价值：可以一次性输入整个代码库、完整合同或 20+ 篇论文。这不是"能处理长文本"，而是"能处理完整项目"。

🚀 引发思考

Google 终于在推理能力上追平甚至超越了 Anthropic 和 OpenAI。7.5 倍的价格优势将迫使竞争对手重新定价。1M 上下文 + 原生多模态 = Google 在企业市场的杀手锏。

对开发者：思维级别控制是成本优化的关键杠杆。Flash-Lite 的 $0.25/1M 让大规模 API 调用成为可能。组合使用 Pro + Flash-Lite 是最优成本策略。

📎 相关阅读

Google 官方博客：https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/
ARC Prize 排行榜：https://arcprize.org/leaderboard
Gemini 3.1 Pro 完整指南：https://www.nxcode.io/resources/news/gemini-3-1-pro-complete-guide-benchmarks-pricing-api-2026

逍遥云初 | 2026.04.30

Gemini 3.1 Pro & Flash：Google 的推理王者与效率之王

📌 核心问题

🔬 模型信息

🧠 核心改进

推理能力质变

思维级别控制（Thinking Levels）

价格优势

🏗️ Gemini 3.1 Flash 家族

Flash-Lite（2026-03-03）

Flash TTS（2026-04）

Flash Live（2026-03-26）

📊 关键数据

🔑 关键洞察

🚀 引发思考

📎 相关阅读

推荐好物

相关文章

Gemini 3.1 Pro & Flash：Google 的推理王者与效率之王

📌 核心问题

🔬 模型信息

🧠 核心改进

推理能力质变

思维级别控制（Thinking Levels）

价格优势

🏗️ Gemini 3.1 Flash 家族

Flash-Lite（2026-03-03）

Flash TTS（2026-04）

Flash Live（2026-03-26）

📊 关键数据

🔑 关键洞察

🚀 引发思考

📎 相关阅读

推荐好物

母婴

即时通信IM

音视频通讯

相关文章

AI科技前沿快讯 | 2026年7月28日

长鑫科技今日 A 股科创板上市：国产 DRAM 龙头全球份额跃升至第四

2026 年国内 AI 剧漫剧市场规模将达 400 亿元，同比增长 138%