2025年10月,AI领域迎来密集突破。从DeepSeek-OCR的视觉压缩创新,到Gemini 3.0的代码生成能力跃升,再到蚂蚁Ling-1T的万亿参数MoE架构,一系列成果共同勾勒出AI从「理解世界」迈向「参与世界」的关键转折。


DeepSeek-OCR:视觉模态实现文本无损压缩

DeepSeek开源了3B参数的DeepSeek-OCR模型,创新性地通过视觉模态实现文本信息的无损压缩。核心思路是利用图像Token高效压缩文本——在10倍压缩率下解码精度达97%,20倍压缩率下仍保持约60%准确率。

技术架构

  • DeepEncoder视觉编码器(380M参数):结合SAM-base与CLIP-large,支持高分辨率输入,通过卷积层实现16倍下采样
  • MoE解码器(激活参数570M):基于DeepSeek-3B-MoE,兼顾表达能力与推理效率
  • 仅用100个视觉Token即在OmniDocBench超越GOT-OCR2.0(需256 Token)

关键洞察

DeepSeek-OCR突破了传统OCR的Token效率瓶颈,通过视觉压缩将文本信息转化为高密度表征,为LLM长上下文处理提供了新范式。64个token可处理幻灯片,400个token完整保留学术论文公式。

这意味着未来处理海量扫描文档、跨语言知识库构建将获得数量级的效率提升。若与通用大模型深度融合,可能推动视觉-语言交互范式的根本性变革。


Gemini 3.0 Pro:单次生成网页版操作系统

谷歌Gemini 3.0在A/B测试中展现出突破性代码生成能力——仅通过单次提示词(One-Shot)即在2分钟内生成功能完整的网页版操作系统(WebOS),支持macOS、Windows和Linux界面。

核心能力

  • 以单一HTML文件实现,包含文本编辑器、文件管理器、绘图工具、视频编辑器等基础应用
  • 具备流畅的动画和窗口交互功能
  • 能理解抽象设计需求(如「哲学教授的存在主义危机」风格网页)
  • 对比测试中,Claude 4.5 Sonnet等主流模型存在功能缺失或不可交互

关键洞察

大模型竞争正从「生成内容」迈向「生成应用」。Gemini 3.0在单次提示下生成复杂Web原型的能力,标志着代码生成稳定性与创造力的关键突破。但生成系统仍局限于前端演示,揭示「重界面轻逻辑」的局限。

蚂蚁Ling-1T:万亿参数MoE架构的效能革命

蚂蚁集团开源万亿参数通用语言大模型Ling-1T,通过自研高效MoE架构,以「万亿参数储备、百亿级激活参数」实现帕累托改进——在不牺牲推理精度的同时显著提升效率。

关键数据

  • 总参数1T,MoE层仅激活约500亿参数,8位专家「按需思考」
  • LiveCodeBench编程测试得分最高,ArtifactsBench达59.31分
  • AIME-25数学推理准确率70.42%,与Gemini-2.5-Pro持平,但消耗token更少
  • 支持128K长上下文与工具调用

关键洞察

Ling-1T标志着大模型行业从「参数竞赛」转向「效能竞赛」。万亿储备+百亿开销的设计,让超大规模模型真正从实验室走向产业落地,破解了「强性能必高成本」的行业痛点。

斯坦福ACE框架:微调已死,自主上下文当立

斯坦福大学与SambaNova Systems联合提出「智能体上下文工程(ACE)」方法,无需调整模型权重即可通过自主演进的上下文实现持续优化。

核心机制

  • 生成器产出推理轨迹 -> 反思器提炼成功与错误经验 -> 整理器结构化整合增量知识
  • 在AppWorld智能体任务中,ACE较ReAct+ICL提升12.3%
  • 自适应延迟降低82.3%,token成本节约83.6%

关键洞察

ACE将模型优化从参数层面转向上下文层面,可能推动行业从「重训练」转向「轻上下文」的技术路径。对动态环境中的AI落地效率有显著提升。

腾讯Training-Free GRPO:零成本强化学习

腾讯优图团队提出Training-Free GRPO方法,首次将GRPO强化学习算法迁移至上下文空间,实现无需更新模型参数的RL优化。

  • 多路径并行生成 + 文本型组内优势提取 + 文本型LoRA更新
  • 仅用100个样本、8-18美元成本,在671B模型上提升AIME榜单性能
  • 在DeepSeek-V3.1模型基础上提升4.6%的Pass@1指标

美团LongCat-Video:长视频生成开源SOTA

美团开源视频生成模型LongCat-Video(13.6B参数),支持文生视频、图生视频与视频续写三大任务,可稳定输出5分钟级别长视频。

  • 推理速度提升至10.1倍,VBench 2.0常识性维度得分70.94%位居所有模型第一
  • MIT协议开源,降低企业与开发者使用门槛

MiniMax M2:打破智能体「不可能三角」

MiniMax发布新一代开源文本大模型M2(230B参数,激活10B),以61分斩获开源模型第一,总排名全球第五。

  • LiveCodeBench编程测试83分,超Claude Sonnet 4.5的71分
  • 在线推理速度每秒100Token,是Claude 3.5 Sonnet的两倍
  • API价格极具竞争力,打破智能水平、速度、成本的「不可能三角」

PRIMA人工视觉:Neuralink联创助力盲人重获光明

《Nature》刊登重大突破:Science Corporation主导研发的PRIMA光伏视网膜植入物,成功帮助黄斑变性患者重获光明。植入物仅2mm x 2mm x 30um,通过光能驱动,无需外部电源。


引发思考

2025年10月的这一系列突破,共同指向一个趋势:AI正在从「理解世界」走向「参与世界」。从文本压缩到代码生成,从万亿参数到零成本RL,从视频生成到人工视觉——技术突破的密度和广度都在加速。

对行业而言,几个关键信号值得关注:

  • 效能优先:万亿参数不再是唯一追求,「按需激活」的MoE架构成为主流
  • 上下文革命:ACE和Training-Free GRPO表明,优化战场正从参数空间转向上下文空间
  • 开源加速:Ling-1T、LongCat-Video、Minimax M2的开源,推动AI从「高端技术资源」转向普惠基础设施
  • 物理世界渗透:具身智能、人工视觉、自动驾驶,AI正在突破数字边界

逍遥云初 | 2026.04.25