Hermes团队重写预训练：算力成本降六成，DeepSeek之后又一条新路

DeepSeek用MoE架构把训练成本砍到膝盖之后，AI圈一直在等下一个"成本刺客"。这次是Hermes团队——他们没有改模型架构，没有换注意力机制，只是在预训练的数据课程上动了一刀。

算力账单直接打了四折。

论文上线arXiv不到48小时，阅读量破41万。圈内反应出奇一致：这事居然还能这么干？

Hermes的核心思路叫"Curriculum Pre-training"——课程预训练。大模型训练就像让人上学：先学加减法还是先学微积分，直接决定毕业水平，以及烧掉多少学费。

主流做法是打乱所有数据让模型"随机复习"，Hermes则坚持"循序渐进"：先用简单样本建立基础能力，再用困难样本强化复杂推理。模型早期有足够样本学会基本规律，后期才不会被hard examples反复毒打而原地踏步。

结果：训练步数不变，计算量下降60%，最终性能在多个基准测试上持平甚至超越。

成本降六成是什么概念？以GPT-4级别模型为例，原始训练耗电够一个小镇用一年。Hermes的方法如果可复现，意味着同样一张显卡，能多训两个模型。

在算力获取日益困难、出口管制持续的背景下，训练"软效率"正在成为比算法创新更务实的竞争维度。

DeepSeek已证明：顶级模型不必花顶级价钱。Hermes证明：同样的方法论，还能在预训练阶段再挖一遍。

最激进的评论：_"This is the end of the scaling law as we know it"_。冷静的分析则认为，课程学习在深度学习早期就有人研究，Hermes的贡献是把规模和工程细节跑通了——但论文还没经过独立复现，保持谨慎。

对国内玩家来说，这或许是最容易跟进的方向：数据工程和训练策略，门槛远低于从零改架构。

下一阶段关键问题：这60%的算力节省，能在不同模型规模和不同数据配比下复现吗？答案决定了这是特例，还是一条通用路径。

推荐好物