📌 核心问题
2026年5月1日,美国国家标准与技术研究院(NIST)下属的AI标准与创新中心(CAISI)发布了对DeepSeek V4 Pro的独立评估报告。这是美国政府机构首次对中国最前沿AI模型进行系统性、多维度的能力评估。
核心发现:DeepSeek V4是CAISI评估过的最强中国AI模型,但其能力比美国前沿模型落后约8个月。DeepSeek自报的benchmark数据与CAISI独立评估之间存在显著差距——自报数据看起来与GPT-5.4和Opus 4.6旗鼓相当,但在CAISI的非公开benchmark上,表现仅相当于8个月前发布的GPT-5。
📊 关键数据
CAISI评估结果(9个benchmark,5个领域)
- 网络安全 CTF-Archive-Diamond:GPT-5.5 71% > Opus 4.6 46% > GPT-5.4 mini 32% ≈ DeepSeek V4 32%
- 软件工程 SWE-Bench Verified:GPT-5.5 81% > Opus 4.6 79% > DeepSeek V4 74% > GPT-5.4 mini 73%
- 软件工程 PortBench(CAISI自建,非公开):GPT-5.5 78% > Opus 4.6 60% > DeepSeek V4 44% > GPT-5.4 mini 41%
- 抽象推理 ARC-AGI-2 semi-private:GPT-5.5 79% > Opus 4.6 63% > DeepSeek V4 46%
- 数学 OTIS-AIME-2025:GPT-5.5 100% > DeepSeek V4 97% > Opus 4.6 92% > GPT-5.4 mini 90%
- IRT估算Elo:GPT-5.5 1260 > Opus 4.6 999 > DeepSeek V4 800 > GPT-5.4 mini 749
自报 vs 独立评估的差距
- DeepSeek自报:V4与Opus 4.6和GPT-5.4基本持平
- CAISI评估:V4能力水平约等于8个月前的GPT-5
- 差距来源:CAISI使用了非公开benchmark(PortBench、CTF-Archive-Diamond、ARC-AGI-2 semi-private),这些不在DeepSeek自选的benchmark列表中
成本效率
- DeepSeek V4 Pro:输入$1.74/M tokens(缓存$0.0145),输出$3.48/M tokens
- GPT-5.4 mini:输入$0.75/M tokens(缓存$0.075),输出$4.50/M tokens
- 在7个benchmark中,DeepSeek V4在5个上比GPT-5.4 mini更便宜,范围从便宜53%到贵41%
🏗️ 评估方法论
IRT(项目反应理论)方法
CAISI采用了一种受IRT启发的方法来衡量模型的综合能力。类比场景:一组学生(AI模型)各自回答一系列考题(benchmark任务),结果用来确定每个学生的相对能力和每道题的难度。这种方法的优势是能跨不同benchmark进行公平比较,而不是简单地取平均分。
评估覆盖领域
- 网络安全:CTF-Archive-Diamond(285个高难度CTF挑战)
- 软件工程:SWE-Bench Verified + PortBench(CAISI自建的CLI工具移植评估)
- 自然科学:FrontierScience + GPQA-Diamond
- 抽象推理:ARC-AGI-2 semi-private(非公开数据集)
- 数学:OTIS-AIME-2025、PUMaC 2024、SMT 2025
🔑 关键洞察
1. Benchmark选择决定叙事
这是本次评估最重要的发现。DeepSeek自选的benchmark让V4看起来与美国前沿模型旗鼓相当,但CAISI的非公开benchmark揭示了完全不同的图景。这不一定是DeepSeek有意为之——任何公司都会倾向于展示自己最好的数据。但它提醒我们:self-reported benchmark永远需要第三方验证。
2. 8个月的差距意味着什么
8个月在当前AI发展速度下是巨大的。GPT-5到GPT-5.5之间经历了GPT-5.2、GPT-5.4等多个版本,每次都有显著提升。这意味着如果OpenAI/Anthropic继续以当前速度迭代,DeepSeek要追上前沿可能需要在架构或训练方法上有突破性创新,而不仅仅是跟随。
3. 成本效率是DeepSeek的真正优势
虽然能力落后8个月,但DeepSeek V4在成本效率上表现亮眼。在能力水平相近的GPT-5.4 mini面前,DeepSeek在5/7的benchmark上更便宜。对于成本敏感的场景,DeepSeek仍然是有竞争力的选择。
4. 数学领域的强势值得深思
DeepSeek V4在数学上仅落后GPT-5.5 3个百分点(97% vs 100%),远小于其他领域的差距。这可能反映了DeepSeek在数学推理训练上的针对性投入,也可能是其架构在形式推理上的内在优势。这是一个值得关注的信号。
🚀 引发思考
这份报告的发布时机和方式都值得玩味。NIST选择在GPT-5.5发布后不久发布DeepSeek V4的评估,使用包含非公开benchmark的方法论,得出比DeepSeek自报更保守的结论。这既是对AI能力评估标准化的推进,也可能带有政策信号——强调美国在AI前沿的领先地位。
对行业来说,最重要的启示是:AI模型评估需要独立第三方验证。Self-reported benchmark的可信度正在被系统性地质疑。CAISI的方法论(IRT + 非公开benchmark)可能成为未来AI能力评估的新标准。
逍遥云初 | 2026.05.05






