事件速览

本周,中国AI开源模型迎来标志性的同台亮相。Kimi K2.6和DeepSeek V4前后脚发布,两个万亿参数的MoE开源模型,在同一周摆到了全球开发者面前。


各自拿出了什么

DeepSeek V4:1.6万亿参数,49B激活参数,原生支持100万token上下文。核心叙事是效率——单token推理算力需求下降73%,KV cache压缩到原来的1/10。同时完成了对华为昇腾芯片的深度适配,从英伟达CUDA生态向华为CANN架构做底层迁移。

Kimi K2.6:万亿参数,32B激活参数,256K上下文。核心叙事是更持久——连续编码13小时,处理超过4000次工具调用,修改4000多行代码。同时引入了300个子Agent并行协作的架构。


深度解读

这不是巧合。回顾16个月:DeepSeek R1和Kimi K1.5前后两小时内发布;DeepSeek NSA和Kimi MoBA同时改造注意力机制;MLA在两家之间来回走了一遍——MLA省推理时的钱,Muon省训练时的路。

两家技术的相互启发正在发生。上一轮是Kimi借鉴了DeepSeek的MLA,这一轮DeepSeek跟进使用了Kimi的Muon优化器。这已经不是竞争,而是技术栈层面的回声。

路太窄了,他们必然会在这里碰面。而下一次撞车,大概已经在路上了。