LLM是否知道自己说完之后会发生什么？arXiv新研究提出用户轮生成探测法

arXiv新论文提出用「用户轮生成」（User Turn Generation）来探测大语言模型是否具备「交互意识」——即模型是否知道用户在自己回复之后会说些什么。研究发现：任务准确率与交互意识是解耦的，一个模型可以很擅长答题，但完全不知道用户接下来会追问什么。

给定对话上下文（用户问题+助手回答），让模型在用户角色下生成内容。如果模型权重编码了交互意识，生成的用户轮应该是对接前文的真实追问。实验在11个开源LLM和5个数据集上验证。

这是论文最反直觉的发现：模型可以在benchmark上表现优异，但完全不具备「说完之后会发生什么」的直觉。现有LLM评测体系存在盲区——只测输出质量，不测交互预判。

低温采样下LLM几乎不生成有意义的用户追问，但提高温度后交互意识浮现。这意味着模型的交互意识可能是隐式的，需要特定条件才能激发。

如果LLM不知道用户下一步会说什么，这对AI助手体验意味着什么？当前的对话AI其实是在「孤立作答」，而非真正的「交互」。评估LLM不仅要问「答得对不对」，还要问「它是否知道自己在对谁说话」。

推荐好物