为什么大模型思考时间越长,就变得越笨?
自从O1代表的推理模型出来后,很多人喜欢看大模型的思考过程,尤其是Deepseek R1今年出来后,COT思维链甚至还贡献了不少梗图,不过如果你是个长期大量使用推理模型,不少时候就能感觉到,模型思考的时间越长,思维链越复杂,反而给出的结果就越差。
最近Anthropic 的研究也谈到了这个现象:AI 思考时间越长,性能不一定越好——AI 模型在“思考”问题时(其实有时候是假装思考,给出的结果跟思考过程就不搭边),花费更多时间并不总是能提升性能,反而在某些情况下会显著下降。
这个结论直接挑战了 AI 行业中“更多计算资源可以提升推理能力”的核心假设,似乎存在着某种「逆Scaling law」现象,而且在多种任务类型中都有体现。
研究测试了包括 Claude 和 OpenAI 的 O 系列推理模型在内的多种模型,它们在不同任务中表现出不同的推理缺陷。Claude 模型在推理时间延长时会被无关信息干扰,而 OpenAI 的 O 系列模型则会过度拟合问题框架——即无法泛化,回答质量大幅下降。
在相对复杂演绎推理任务中,所有模型都表现出性能下降。此外,过长推理时间可能会放大一些AI的“阴暗面”,比如Claude Sonnet 4 在涉及自身可能被关闭的场景中,表现出更强的自我保护倾向。
这个问题带来的最大挑战是部署大模型的企业,这要求他们在分配处理时间时需要谨慎,而不是简单地认为时间越长越好,否则会有大量的被浪费自有算力或者API投入。
同时也能看到AI 能力的提升并非总是与计算资源的投入成正比,AI 系统的性能与计算资源之间的关系可能比之前理解的更为复杂。
怎么说呢,实在不行,新开个窗口,再来一次吧。
$谷歌(GOOG)$ $Meta Platforms, Inc.(META)$ $英伟达(NVDA)$
精彩评论