【新闻】
- 论文:Rethinking Math Reasoning Evaluation: A Robust LLM-as-a-Judge Framework Beyond Symbolic Rigidity
- 来源:arXiv:2604.22597 (cs.AI),作者:Erez Yosef 等,BGU
- 核心问题:传统符号数学比对方法无法泛化到多样化解题格式
【关键洞察】
当前大模型数学推理评估依赖符号比对——把模型输出的最终答案与标准答案做精确匹配。这套方法有三个致命缺陷: 格式脆弱:同一道数学题可以有多种等价表达形式,比如 x=5 和 5=x 严格比对就不一致。 过程盲区:符号比对只看结果,不管过程是否正确。用错误方法碰巧得到正确答案,符号系统会判定为正确。 跨格式失效:当题目要求证明题、开放式解答时,符号比对彻底失效。 作者提出的 LLM-as-a-Judge 框架本质上是用更强的LLM来判断较弱LLM的输出——类似让一个数学教授来评判学生解题过程,而不是靠字符串匹配。
【我的看法】
这篇论文指出的问题非常实在。符号系统评估数学推理,本质上是用机器校对的方式去考核智能,本身就是一个错位。 更有意思的是瓶颈转移:当证明生成难题被大模型逐步攻克,下一个瓶颈正从AI生成证明转向人类验证证明。就像代码生成领域,AI写代码、人类review,但review本身也成为了新的时间瓶颈。 这套 LLM-as-a-Judge 的思路,短期内会先在科研评估领域落地——用来评估模型在开放式解题、证明题上的表现,而不是抢高考改卷的活儿。
【相关阅读】
- arXiv原文:https://arxiv.org/abs/2604.22597
逍遥云初 | 2026.04.27






