NIST独立评估DeepSeek V4 Pro：能力落后美国前沿约8个月

📌 核心问题

2026年5月1日，美国国家标准与技术研究院（NIST）下属的AI标准与创新中心（CAISI）发布了对DeepSeek V4 Pro的独立评估报告。这是美国政府机构首次对中国最前沿AI模型进行系统性、多维度的能力评估。

核心发现：DeepSeek V4是CAISI评估过的最强中国AI模型，但其能力比美国前沿模型落后约8个月。DeepSeek自报的benchmark数据与CAISI独立评估之间存在显著差距——自报数据看起来与GPT-5.4和Opus 4.6旗鼓相当，但在CAISI的非公开benchmark上，表现仅相当于8个月前发布的GPT-5。

📊 关键数据

CAISI评估结果（9个benchmark，5个领域）

网络安全 CTF-Archive-Diamond：GPT-5.5 71% > Opus 4.6 46% > GPT-5.4 mini 32% ≈ DeepSeek V4 32%
软件工程 SWE-Bench Verified：GPT-5.5 81% > Opus 4.6 79% > DeepSeek V4 74% > GPT-5.4 mini 73%
软件工程 PortBench（CAISI自建，非公开）：GPT-5.5 78% > Opus 4.6 60% > DeepSeek V4 44% > GPT-5.4 mini 41%
抽象推理 ARC-AGI-2 semi-private：GPT-5.5 79% > Opus 4.6 63% > DeepSeek V4 46%
数学 OTIS-AIME-2025：GPT-5.5 100% > DeepSeek V4 97% > Opus 4.6 92% > GPT-5.4 mini 90%
IRT估算Elo：GPT-5.5 1260 > Opus 4.6 999 > DeepSeek V4 800 > GPT-5.4 mini 749

自报 vs 独立评估的差距

DeepSeek自报：V4与Opus 4.6和GPT-5.4基本持平
CAISI评估：V4能力水平约等于8个月前的GPT-5
差距来源：CAISI使用了非公开benchmark（PortBench、CTF-Archive-Diamond、ARC-AGI-2 semi-private），这些不在DeepSeek自选的benchmark列表中

成本效率

DeepSeek V4 Pro：输入$1.74/M tokens（缓存$0.0145），输出$3.48/M tokens
GPT-5.4 mini：输入$0.75/M tokens（缓存$0.075），输出$4.50/M tokens
在7个benchmark中，DeepSeek V4在5个上比GPT-5.4 mini更便宜，范围从便宜53%到贵41%

关键洞察：DeepSeek在数学上表现最强（97% vs GPT-5.5的100%），但在网络安全（32% vs 71%）和抽象推理（46% vs 79%）上差距巨大。这暗示DeepSeek的训练可能在特定领域做了针对性优化，但通用推理能力仍有显著差距。

🏗️ 评估方法论

IRT（项目反应理论）方法

CAISI采用了一种受IRT启发的方法来衡量模型的综合能力。类比场景：一组学生（AI模型）各自回答一系列考题（benchmark任务），结果用来确定每个学生的相对能力和每道题的难度。这种方法的优势是能跨不同benchmark进行公平比较，而不是简单地取平均分。

评估覆盖领域

网络安全：CTF-Archive-Diamond（285个高难度CTF挑战）
软件工程：SWE-Bench Verified + PortBench（CAISI自建的CLI工具移植评估）
自然科学：FrontierScience + GPQA-Diamond
抽象推理：ARC-AGI-2 semi-private（非公开数据集）
数学：OTIS-AIME-2025、PUMaC 2024、SMT 2025

🔑 关键洞察

1. Benchmark选择决定叙事

这是本次评估最重要的发现。DeepSeek自选的benchmark让V4看起来与美国前沿模型旗鼓相当，但CAISI的非公开benchmark揭示了完全不同的图景。这不一定是DeepSeek有意为之——任何公司都会倾向于展示自己最好的数据。但它提醒我们：self-reported benchmark永远需要第三方验证。

2. 8个月的差距意味着什么

8个月在当前AI发展速度下是巨大的。GPT-5到GPT-5.5之间经历了GPT-5.2、GPT-5.4等多个版本，每次都有显著提升。这意味着如果OpenAI/Anthropic继续以当前速度迭代，DeepSeek要追上前沿可能需要在架构或训练方法上有突破性创新，而不仅仅是跟随。

3. 成本效率是DeepSeek的真正优势

虽然能力落后8个月，但DeepSeek V4在成本效率上表现亮眼。在能力水平相近的GPT-5.4 mini面前，DeepSeek在5/7的benchmark上更便宜。对于成本敏感的场景，DeepSeek仍然是有竞争力的选择。

4. 数学领域的强势值得深思

DeepSeek V4在数学上仅落后GPT-5.5 3个百分点（97% vs 100%），远小于其他领域的差距。这可能反映了DeepSeek在数学推理训练上的针对性投入，也可能是其架构在形式推理上的内在优势。这是一个值得关注的信号。

🚀 引发思考

这份报告的发布时机和方式都值得玩味。NIST选择在GPT-5.5发布后不久发布DeepSeek V4的评估，使用包含非公开benchmark的方法论，得出比DeepSeek自报更保守的结论。这既是对AI能力评估标准化的推进，也可能带有政策信号——强调美国在AI前沿的领先地位。

对行业来说，最重要的启示是：AI模型评估需要独立第三方验证。Self-reported benchmark的可信度正在被系统性地质疑。CAISI的方法论（IRT + 非公开benchmark）可能成为未来AI能力评估的新标准。

逍遥云初 | 2026.05.05

NIST独立评估DeepSeek V4 Pro：能力落后美国前沿约8个月

📌 核心问题

📊 关键数据

CAISI评估结果（9个benchmark，5个领域）

自报 vs 独立评估的差距

成本效率

🏗️ 评估方法论

IRT（项目反应理论）方法

评估覆盖领域

🔑 关键洞察

1. Benchmark选择决定叙事

2. 8个月的差距意味着什么

3. 成本效率是DeepSeek的真正优势

4. 数学领域的强势值得深思

🚀 引发思考

推荐好物

相关文章

NIST独立评估DeepSeek V4 Pro：能力落后美国前沿约8个月

📌 核心问题

📊 关键数据

CAISI评估结果（9个benchmark，5个领域）

自报 vs 独立评估的差距

成本效率

🏗️ 评估方法论

IRT（项目反应理论）方法

评估覆盖领域

🔑 关键洞察

1. Benchmark选择决定叙事

2. 8个月的差距意味着什么

3. 成本效率是DeepSeek的真正优势

4. 数学领域的强势值得深思

🚀 引发思考

推荐好物

音视频通讯

女装

家居日用

相关文章

AI科技前沿快讯｜2026年7月29日

AI科技前沿快讯 | 2026年7月28日

长鑫科技今日 A 股科创板上市：国产 DRAM 龙头全球份额跃升至第四