Hermes团队重写预训练:算力成本降六成,DeepSeek之后又一条新路

DeepSeek用MoE架构把训练成本砍到膝盖之后,AI圈一直在等下一个"成本刺客"。这次是Hermes团队——他们没有改模型架构,没有换注意力机制,只是在预训练的数据课程上动了一刀。

算力账单直接打了四折。

论文上线arXiv不到48小时,阅读量破41万。圈内反应出奇一致:这事居然还能这么干?

不改架构,只改"上课顺序"

Hermes的核心思路叫"Curriculum Pre-training"——课程预训练。大模型训练就像让人上学:先学加减法还是先学微积分,直接决定毕业水平,以及烧掉多少学费。

主流做法是打乱所有数据让模型"随机复习",Hermes则坚持"循序渐进":先用简单样本建立基础能力,再用困难样本强化复杂推理。模型早期有足够样本学会基本规律,后期才不会被hard examples反复毒打而原地踏步。

结果:训练步数不变,计算量下降60%,最终性能在多个基准测试上持平甚至超越。

为什么这事值得关注

成本降六成是什么概念?以GPT-4级别模型为例,原始训练耗电够一个小镇用一年。Hermes的方法如果可复现,意味着同样一张显卡,能多训两个模型

在算力获取日益困难、出口管制持续的背景下,训练"软效率"正在成为比算法创新更务实的竞争维度

DeepSeek已证明:顶级模型不必花顶级价钱。Hermes证明:同样的方法论,还能在预训练阶段再挖一遍。

圈内怎么看

最激进的评论:_"This is the end of the scaling law as we know it"_。冷静的分析则认为,课程学习在深度学习早期就有人研究,Hermes的贡献是把规模和工程细节跑通了——但论文还没经过独立复现,保持谨慎。

对国内玩家来说,这或许是最容易跟进的方向:数据工程和训练策略,门槛远低于从零改架构。

下一阶段关键问题:这60%的算力节省,能在不同模型规模和不同数据配比下复现吗?答案决定了这是特例,还是一条通用路径。