📌 核心问题
2026 年 2 月 19 日,Google 发布 Gemini 3.1 Pro——Gemini 3 系列的首次小版本迭代,但性能提升幅度打破了"小版本=小改进"的惯例。在 ARC-AGI-2 抽象推理测试中,Gemini 3.1 Pro 拿下 77.1%,较前代 Gemini 3 Pro(31.1%)提升超过 148%,远超人类平均水平(60%)。
🔬 模型信息
- 发布方:Google DeepMind
- 发布日期:2026-02-19(Pro)、2026-03-03(Flash-Lite)、2026-04(Flash TTS)
- 定价:$2/1M 输入 tokens(Pro),与前代相同,性能免费升级
- 上下文窗口:1M tokens
🧠 核心改进
推理能力质变
ARC-AGI-2 测试衡量模型解决全新抽象问题的能力。Gemini 3.1 Pro 的 77.1% 远超前代,更超越了 Claude Opus 4.6(37.6%)和 GPT-5.2(54.2%)。GPQA Diamond 94.3%,SWE-Bench Verified 80.6%。
思维级别控制(Thinking Levels)
新增 Low/Medium/High 三档推理深度:Low 适合简单任务快速响应;Medium 平衡模式适合日常工程;High 深度推理适合复杂多步问题。开发者可按任务复杂度动态分配推理预算。
价格优势
Gemini 3.1 Pro:$2.00/1M 输入。Claude Sonnet 4.6:$3.00/1M(1.5x)。Claude Opus 4.6:$15.00/1M(7.5x)。GPT-5.2:~$10.00/1M(5x)。7.5 倍于 Opus 的价格优势,推理能力却更强。
🏗️ Gemini 3.1 Flash 家族
Flash-Lite(2026-03-03)
定价 $0.25/1M 输入 tokens,比上一代快 2.5 倍,定位高吞吐、低成本场景。
Flash TTS(2026-04)
原生语音输出模型,不再需要 Live WebSocket,标准 API 直接调用。
Flash Live(2026-03-26)
实时音频 AI,更自然、更可靠的语音交互。
📊 关键数据
代码能力:SWE-Bench Verified 80.6%(行业第一),LiveCodeBench Pro 2887 Elo,Terminal-Bench 2.0 68.5%。科学推理:Humanity's Last Exam(无工具)44.4%。Agent 能力:APEX-Agents 33.5%(超越 Opus 的 29.8%)。
🔑 关键洞察
Google 的"免费升级"策略:维持与前代完全相同的定价,却带来 2 倍以上的推理提升。直接压缩了竞争对手的定价空间。
推理效率的真正含义:不仅指速度,更指"用更少的 thinking token 达到更好的结果"。同样的 API 预算下,能处理更多复杂任务。
1M 上下文的战略价值:可以一次性输入整个代码库、完整合同或 20+ 篇论文。这不是"能处理长文本",而是"能处理完整项目"。
🚀 引发思考
Google 终于在推理能力上追平甚至超越了 Anthropic 和 OpenAI。7.5 倍的价格优势将迫使竞争对手重新定价。1M 上下文 + 原生多模态 = Google 在企业市场的杀手锏。
对开发者:思维级别控制是成本优化的关键杠杆。Flash-Lite 的 $0.25/1M 让大规模 API 调用成为可能。组合使用 Pro + Flash-Lite 是最优成本策略。
📎 相关阅读
- Google 官方博客:https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/
- ARC Prize 排行榜:https://arcprize.org/leaderboard
- Gemini 3.1 Pro 完整指南:https://www.nxcode.io/resources/news/gemini-3-1-pro-complete-guide-benchmarks-pricing-api-2026
逍遥云初 | 2026.04.30





