阿里发布QwenLong-L1超长文本杀器！已开源、支持120k长上下文、具备“翻书回溯”能力_老虎社区_美港股上老虎

阿里发布QwenLong-L1超长文本杀器！已开源、支持120k长上下文、具备“翻书回溯”能力

科技迷M06-01 14:01

大数据文摘出品

业界普遍认为AI上下文越长越好，但这存在一个核心矛盾：模型能“吞下”海量信息，却难以真正“消化”。面对长文，它们会忘记要点、无法深入推理，这已成为一大瓶颈。

例如，AI 能记住第1页的内容，同时理解第100页的观点，并将两者联系起来进行推理吗？多数情况下，答案是令人失望的。

这就像开卷考试，书太厚，你找不到答案在哪，开卷也等于零分。研究者把这种瓶颈正式命名为“长上下文推理 RL”，强调模型必须先检索并定位片段，再进行多步逻辑链生成，而不是直接“凭存货作答”。

近日，阿里巴巴把一套可阅读 120 k token 超长文档、还能“回头修正”的训练框架“QwenLong-L1”完整开源，给上述瓶颈了一个清晰的、可行的解决思路。

《QwenLong-L1: A Framework for Long-Context Reasoning RL》论文。

GitHub地址：https://github.com/Tongyi-Zhiwen/QwenLong-L1

论文地址：https://arxiv.org/abs/2505.17667

QwenLong-L1的解法：一套“三步走”的战略

QwenLong-L1 并不是一个新模型，而是一套训练已有大模型的新方法——它采用了三阶段训练流程：

第一步有监督学习（SFT）阶段。模型在这一阶段接受的是大量经过标注的长文本推理样本，比如“从一份 20 页的财报中，找出企业未来三年关键成本控制策略”。这一步帮助模型建立对“长内容”的基础适应力：哪里该找信息？信息之间有什么逻辑链？如何根据内容生成回答？这一阶段不是靠猜答案，而是靠“看例子学”。

第二步是“分级强化”——随着文档长度逐步增加，模型被分阶段推进强化学习过程。训练初期，输入文档较短；模型表现稳定后，再逐步拉长输入。这就像教孩子写作业，从看一页材料回答问题，慢慢过渡到处理整本教材。“突然上难度”的方法常常训练崩盘，而这套“课程表”式的推进方式，使得模型策略进化更可控、更稳定。

第三步是“难题反复训练”——用最难的样本反复优化模型的策略空间。这一步被称为“困难感知的回顾采样”（Difficulty-Aware Retrospective Sampling）：它刻意选择那些模型曾经做错、但又具有代表性的难题进行强化学习，从而鼓励模型尝试不同思路路径，并形成反思、回溯、验证的能力。

更妙的是，它还引入了一套混合奖励机制。不同于传统解数学题那样“答案对就给满分”的死板规则，QwenLong-L1同时引入了“规则裁判”和“LLM裁判”。 “规则裁判”确保答案的精确性，而“LLM裁判”则从语义上判断模型生成的内容和标准答案是否意思相近。这给了模型更大的灵活性，尤其是在处理那些没有唯一标准答案的开放性问题时，效果拔群。

效果如何？它学会了“自我纠错”

阿里团队在7个长文本问答（DocQA）基准上测试了QwenLong-L1。结果非常亮眼。基于DeepSeek-R1-32B训练出的QWENLONG-L1-32B模型，其性能足以和Anthropic的Claude-3.7 Sonnet Thinking相媲美，并且优于OpenAI的o3-mini等一众强手。

但比分数更重要的，是模型在推理过程中展现出的“行为变化”。论文提到，经过QwenLong-L1训练后，模型明显更擅长信息定位（Grounding）、子目标设定（Subgoal Setting）、回溯（Backtracking）和验证（Verification）。

这是什么意思呢？举个例子，一个普通模型在分析一份冗长的财报时，可能会被无关的细节带跑偏，或者陷入某个死胡同里出不来。而QwenLong-L1训练的模型，则表现出了惊人的自我反思和纠错能力。它在推理过程中如果发现一条路走不通，会主动“回溯”，退回到上一步，排除干扰信息，然后选择另一条路继续探索，直至找到正确答案。

免责声明：本文观点仅代表作者个人观点，不构成本平台的投资建议，本平台不对文章信息准确性、完整性和及时性做出任何保证，亦不对因使用或信赖文章信息引发的任何损失承担责任。

暂无评论

社区

阿里发布QwenLong-L1超长文本杀器！已开源、支持120k长上下文、具备“翻书回溯”能力

评论

热议股票

7x24