12b体育下载

电脑版下载

26791
6

12b体育下载截图首次登录送91元红包

内容详情

12b体育下载

这项由清华大学何丙祥、曲泽凯、刘泽远等研究团队联合伊利诺伊大学香槟分校钱程以及上海人工智能实验室崔赣渠共同完成的研究发表于2025年12月，展现了一个令人惊讶的发现：在人工智能训练领域，有时候最简单的方法反而能取得最好的效果。这项名为"JustRL"的研究挑战了当前AI训练中越来越复杂化的趋势，证明了用最基础的方法就能让小型AI模型在数学推理任务上达到顶尖水平。

当前的AI训练就像烹饪界的分子料理革命，每个厨师都在使用越来越复杂的技术和设备，试图创造出完美的菜品。多阶段训练管道、动态参数调整、课程学习策略，这些听起来高大上的技术被广泛应用，让整个训练过程变得像精密的化学实验一样复杂。然而，清华团队提出了一个根本性的问题：这种复杂性真的必要吗？

研究团队决定回到最基础的方法，就像一个经验丰富的老厨师放弃所有花哨的工具，只用最简单的锅碗瓢盆来证明自己的厨艺。他们使用单阶段训练和固定的参数设置，在两个15亿参数的推理模型上进行实验。结果令人震惊：这种简单方法不仅达到了当前最先进的性能水平，在九个数学基准测试中平均准确率达到54.9%和64.3%，而且使用的计算资源比那些复杂方法少了整整一半。

更重要的是，相同的参数设置可以直接应用到不同的模型上，无需任何调整，训练过程表现出平稳、单调的改进趋势，在4000多个训练步骤中没有出现通常需要人工干预的崩溃或停滞现象。这就像发现了一个万能的烹饪秘方，不管是做川菜还是粤菜，都能保证出色的效果。

研究团队进行了深入的分析，发现那些被认为是"标准技巧"的复杂方法，比如明确的长度惩罚和强大的验证器，实际上可能会通过限制探索而降低性能。这个发现暗示，该领域可能正在添加复杂性来解决那些在稳定、扩展的基线方法下根本不存在的问题。

一、从模仿到突破的转变

在人工智能的发展历程中，大型语言模型如OpenAI的o1和DeepSeek-R1已经证明了大规模强化学习在数学和编程等具有挑战性的推理任务中的卓越效果。但是，当涉及到较小的轻量级模型时，业界走上了一条不同的道路。

主流公司更倾向于使用蒸馏技术，这本质上是一种监督微调方法，让小模型学习大型教师模型的输出。这种做法从实用角度来看很有意义：蒸馏技术效率高、稳定，能够立即带来性能提升。Qwen3的强弱蒸馏技术和DeepSeek-R1都证明了这种策略对小型语言模型的有效性。

然而，蒸馏技术有一个根本性的限制：它受到教师模型能力的约束。当研究人员依赖蒸馏来改进较小模型的性能时，他们会遇到一个上限，特别是当教师模型的更新不频繁时。即使增加数据量和延长训练时间，一旦教师模型的性能达到平台期，进一步的性能提升也变得非常困难。

相比之下，强化学习可以在蒸馏过程达到饱和后提供进一步的改进，使其在这种情况下成为关键方法。与此同时，针对小型模型的强化学习却获得了不稳定和困难的声誉，需要越来越复杂的技术才能可靠地工作。

过去一年中，我们看到了大量试图稳定和改进小模型强化学习训练的方法激增：多阶段训练管道、动态参数调度、自适应温度控制、响应长度惩罚，以及各种形式的数据整理和过滤技术。这种技术的激增提出了一个重要问题：这种复杂性真的必要吗？

当不同的工作结合不同的方法子集并报告不同的结果时，很难确定真正驱动性能的因素。更令人担忧的是，许多最近的工作都引用训练不稳定性，如奖励崩溃、熵漂移和长度爆炸，作为其技术的动机，但却将这些技术应用在已经复杂的基线之上。这使得无法知道新方法是否提供了真正的好处，还是仅仅补偿了之前复杂性引入的问题。

累积的"最佳实践"可能是相互斗争，而不是对抗强化学习的根本挑战。研究团队决定探索是否可以通过更简单的方法实现稳定、竞争性的训练。他们将最小化设置应用于两个流行的15亿参数推理模型，使用基于常见实践的单阶段训练和固定参数。

二、简单配方的威力

研究团队的方法刻意保持简单，将自己限制在强化学习的基础要素上，避免了在最近工作中变得常见的多阶段管道、动态调度和专门技术。

他们使用veRL中GRPO的默认实现，采用二元结果奖励。奖励信号来自DAPO的轻量级基于规则的验证器，没有使用像SymPy这样可能增加计算开销的符号数学库。研究团队保持了极致的简单性：采用单阶段训练，没有渐进式上下文延长、课程切换或阶段转换，从开始到结束连续训练；使用固定参数，没有自适应温度调度、动态批量大小调整或训练中期参考模型重置；使用标准数据，在DAPO-Math-17k上训练，没有离线难度过滤或在线动态采样策略；使用基本提示，采用简单的后缀提示而不进行调优："请逐步推理，并将你的最终答案放在\boxed{}中"；进行长度控制，简单地将最大上下文长度设置为16K标记，而不是使用明确的长度惩罚项。

研究团队确实使用了一种技术："剪切更高"，这是长时间强化学习训练中稳定性的一个成熟实践。他们将此视为基线的一部分，而不是附加技术。他们使用veRL在两个15亿推理模型上训练了这个配方：DeepSeek-R1-Distill-Qwen-1.5B和OpenMath-Nemotron-1.5B，每个都使用32个A800-80GB GPU训练约15天。相同的参数对两者都有效，无需逐模型调优，并在整个训练过程中保持固定。

在评估方面，研究团队评估了九个具有挑战性的数学推理任务，包括AIME 2024、AIME 2025、AMC 2023、MATH-500、Minerva Math、OlympiadBench、HMMT Feb 2025、CMIMC 2025和BRUMO 2025。他们报告Pass@1准确率，对每个问题平均N个采样响应（MATH-500、Minerva Math和OlympiadBench使用N=4；其他使用N=32）。他们使用温度0.7、top-p 0.9，并允许生成最多32K标记。

为了解决基于规则的验证器的假阴性问题，他们用CompassVerifier-3B增强现有系统，这是一个轻量级的基于模型的验证器。

三、突破性实验结果

研究团队将JustRL应用于两个流行的15亿参数推理模型，展示了他们的最小配方在具有显著稳定训练动力学的情况下实现竞争性能。

从较弱基础开始的扩展实验显示了令人瞩目的成果。研究团队使用简单的单阶段配方训练DeepSeek-R1-Distill-Qwen-1.5B 4380步。他们的模型JustRL-DeepSeek-1.5B在各基准测试中实现了54.87%的平均成绩，超过了ProRL-V2的53.08%，尽管ProRL-V2使用了九阶段训练管道和动态参数以及更复杂的技术。他们在九个基准测试中的六个上领先，展示了广泛的改进而不是对单个任务的过度拟合。

然而，真正的问题是他们的简单性是否会带来计算成本。答案是否定的。计算成本比较显示，他们匹配了ProRL-V2计算预算的一半，同时使用固定参数的单阶段配方。BroRL通过将每个例子的rollout增加到512个，基本上详尽地探索解决方案空间，需要4.9倍的计算量。他们的方法在没有这种计算开销的情况下实现了竞争性能。

值得注意的是，使用动态采样的模型过滤示例。按照POLARIS的做法，研究团队为使用动态采样的DeepSeek-R1-Distill-Qwen-1.5B估计了50%的过滤比率，因为rollout经常包含许多琐碎或困难的情况。即使假设没有过滤，他们的计算使用仍然是可比较的甚至更低的，使他们的估计保守。

训练稳定性方面的表现同样令人印象深刻。JustRL-DeepSeek-1.5B的训练曲线显示了平稳和单调的改进，没有通常需要干预的振荡或平台期。稳定性本身表明他们没有与训练设置作斗争。

更强基础的扩展实验进一步验证了方法的有效性。研究团队使用完全相同的配方训练OpenMath-Nemotron-1.5B 3440步，没有参数变化。他们实现了64.32%的平均成绩，略微超过QuestA的63.81%，在九个基准测试中的五个上领先。差距很小，这是有道理的，因为两种方法都在推动15亿规模可实现的界限。关键区别在于如何到达那里。

QuestA引入了一种创新的课程学习方法，将问题与部分思维链解决方案作为提示进行增强，将训练阶段分为不同难度。这不仅需要基础真值答案，还需要更大模型生成的完整推理轨迹用于课程构建，带来额外的数据要求和工程复杂性。他们的方法仅使用标准问题-答案对，没有增强或课程设计。

在计算效率方面，他们使用的计算量减少了一半，同时实现了稍好的平均性能，没有设计QuestA使用的复杂课程。另一条平滑的训练曲线表明，相同配方在两个模型上都有效，无需参数调优，这表明了真正的鲁棒性而不是对单个模型的幸运优化。

这些结果并不贬低QuestA的贡献，问题增强是一种明显有帮助的聪明技术。相反，它们表明通过更简单的方法也可以实现竞争性能。

四、训练动态的深入分析

训练配方的终极测试不仅仅是最终数字，而是是否能够可靠地达到目标。复杂技术通常作为训练不稳定性的响应而出现：振荡奖励、策略崩溃或失控的响应长度。如果更简单的方法可以完全避免这些失败模式，那么这表明我们可能一直在治疗症状而不是原因。

研究团队详细检查了JustRL-DeepSeek-1.5B的训练动态，在4000个训练步骤中跟踪三个关键动态：平均训练奖励、策略熵和平均响应长度。这些动态揭示了模型是稳定学习还是需要持续干预。

策略熵在训练后期步骤中在1.0和1.6之间振荡，没有系统性的向上漂移（探索崩溃）或向下漂移（过早收敛），表明简单的"剪切更高"技术在大规模强化学习中表现良好。平均奖励显示从大约-0.6到+0.4的平均奖励攀升。曲线有噪音，但趋势明显向上。更重要的是，没有会在多阶段方法中通常触发干预的扩展平台期或突然下降。信号足够一致，模型可以持续学习。

模型开始时冗长，生成平均约8000标记的响应。没有任何明确的长度惩罚，它自然地压缩到1000步时的4000-5000标记，并保持在这个范围内。这种有机压缩可能比明确的惩罚更鲁棒，明确的惩罚可能创造模型学会利用的对抗性压力。

与典型强化学习的对比非常明显。虽然研究团队没有计算资源来运行广泛的对照比较，但文献提供了背景。许多最近的工作明确引用训练不稳定性作为其技术的动机：ProRL-v2在观察到长度漂移后引入了调度长度惩罚；BroRL在遇到平台期后将rollout增加到数百个；多个工作在KL散度增长过大时应用KL正则化和重置参考模型，这限制了训练上界。他们的训练没有表现出任何激发干预的病态。

当然，这些平滑曲线并不证明更简单的方法总是更稳定，或者技术永远不会有帮助。他们无法分离哪些特定复杂技术导致不稳定性，哪些解决了它。但对比是明显的：最小配方产生的训练动态根本不需要已成为标准实践的干预。

五、消融研究的意外发现

研究团队从JustRL-DeepSeek-1.5B的基础配方开始，进行了两项消融研究，都训练了3000多步，结果令人意外。

第一个修改是添加明确的长度惩罚项，针对最后4k标记（如DAPO中使用的）。第二个修改是进一步添加来自DeepScaleR的更复杂验证器，以减少假阴性。结果显示，两种修改都降低了性能：添加超长惩罚在50% AIME 2024处平台化（相对于55%基线），添加两种修改在45%处平台化。

关于超长惩罚的发现尤其有启发性。研究团队假设明确惩罚冗长响应可能通过更快地推动模型走向简洁来改善训练效率。相反，性能显著降低作为权衡。熵图揭示了原因：明确惩罚崩溃探索，将熵驱动到0.5-0.6，与他们基础方法的1.2-1.4范围相比。明确惩罚似乎创造了与学习目标冲突的压力，迫使模型在探索实际有效方法之前过早收敛到更短的响应。

关于鲁棒验证器的实验也产生了有趣的结果。研究团队进一步假设减少假阴性（正确解决方案标记错误）会提供更清洁的学习信号。然而，即使在规范化奖励尺度后，其使用导致更差的最终性能，在45% AIME 2024处平台化。

研究团队提供了两种可能的解释。首先，更严格的基础验证器通过减少"完美"分数创建了更丰富的学习信号频谱，而鲁棒验证器的宽容性提供了较少细致的指导。其次，更严格验证器对精确格式的依赖可能迫使模型发展更鲁棒的内部计算，当验证器在外部纠正错误时失去了这种激励。因此，宽容的验证器可能无法鼓励最佳泛化所需的精确性。

这些结果揭示了两个重要教训。首先，并非所有"标准技巧"都能跨环境迁移。超长惩罚在DAPO的设置中有效，但在他们的设置中降低了性能，表明技术以复杂和有时不可预测的方式与其他设计选择交互。其次，更简单的方法并不总是更容易改进。他们测试了两个看似合理的修改，但都使情况变得更糟，表明他们的基础配方实现了容易被额外干预破坏的微妙平衡。

研究团队明确说明了这些消融的局限性。他们测试了两个特定修改，但许多其他技术仍未探索：课程学习、自适应温度调度、参考模型重置、不同验证器设计和各种形式的数据增强。其中一些可能改进他们的基线。他们的观点不是额外技术永远不会有帮助，而是应该经验性验证而不是假设有益。

六、现实意义与局限性

这项研究带来的启示是多层面的。平滑的训练曲线伴随着健康的熵、单调奖励和自然长度收敛，与经常被引用作为复杂技术动机的不稳定性形成对比。他们的负面消融显示，添加"改进"实际上主动降低了性能。这表明复杂性有时可能解决由其他设计选择创造的症状，而不是根本的强化学习挑战。

然而，研究团队承认他们不知道的内容。他们证明了简单强化学习效果很好，但无法分离原因。是参数吗？训练数据集？验证器设计？三者之间的相互作用？他们的结果也仅限于数学推理中15亿规模的两个骨干。推广到其他领域、模型大小和任务仍然是开放问题。

复杂性在某些情况下可能有帮助。在极端计算约束下，遇到他们没有面临的特定失败模式时，推动超越当前性能上限时，或在具有更嘈杂奖励信号的领域中，额外技术可能是有价值的。他们的论点是方法论的：首先建立简单基线，然后仅在识别出它解决的特定问题时才添加复杂性。

研究团队的工作存在几个限制。首先，他们的结果仅限于15亿参数规模的数学推理任务，推广到其他领域（如编程、一般问答）和模型大小仍未探索。其次，虽然他们证明了简单性有效，但无法明确分离哪些特定组件（参数、验证器设计、训练数据）对成功最关键。第三，他们的计算预算虽然低于一些复杂方法，但对资源受限的研究人员来说可能仍然过高。最后，他们没有探索当推向更长训练时间时他们的方法是否保持优势，或者在规模上额外技术是否变得必要。

七、简单之道的深远意义

关于小模型强化学习的辩论一直被复杂性对稳定性和性能必要的假设所笼罩。研究团队着手回答一个直接问题：如果我们在没有已成为标准实践的专门技术的情况下将强化学习应用于小型语言模型，会发生什么？

通过退回到更简单的方法，他们的发现提供了清晰的答案：具有稳定基础的适当规模可以匹配复杂技术。从两个基础模型开始，他们使用单阶段训练和固定参数实现了可比较或更好的性能，匹配或超越了采用多阶段训练和课程学习的方法，同时使用了一半的计算量。

比最终数字更引人注目的是路径：数千步的平滑、稳定改进，没有通常需要防止训练崩溃的干预。这项研究倡导方法论转变：从简单开始，扩大规模，只有当简单、鲁棒的基线明显失败时才添加复杂性。如果简单性比当前实践假设的更频繁地足够，那似乎值得关注。

这种发现对整个人工智能研究领域都有重要意义。在追求更好性能的过程中，研究社区往往倾向于添加越来越多的技巧和复杂机制。但正如这项研究所展示的，有时最有效的解决方案可能就是最简单的那一个。这不仅能够节省计算资源，降低实施难度，还能提供更好的可复现性和可理解性。

对于实际应用而言，这项研究为那些资源有限但希望训练高性能小模型的研究者和开发者提供了新的选择。他们不再需要实施复杂的多阶段训练系统或动态参数调整策略，只需要按照研究团队提供的简单配方，就可能获得出色的结果。这大大降低了强化学习在小模型训练中的门槛，让更多人能够参与到这个领域的研究和应用中来。

说到底，这项研究提醒我们，在科学研究中，简单往往比复杂更有力量。正如法国作家安托万·德·圣埃克苏佩里所说："完美的实现，不是当没有更多东西可以添加时，而是当没有更多东西可以去除时。"清华大学团队的JustRL正是这种哲学的完美体现，它用最简洁的方法达到了最优秀的效果，为未来的AI研究指明了一个值得深思的方向。有兴趣了解更多技术细节的读者可以通过论文编号arXiv:2512.16649v1查询完整研究内容。

Q1：JustRL是什么样的AI训练方法？

A：JustRL是清华大学研究团队开发的一种极简强化学习方法，专门用于训练小型AI模型进行数学推理。它的核心特点是使用单阶段训练和固定参数，避免了复杂的多阶段训练管道和动态参数调整，就像用最简单的烹饪方法做出最美味的菜肴一样。

Q2：JustRL相比复杂方法有什么优势？

A：JustRL最大的优势是用一半的计算资源就能达到甚至超越复杂方法的性能。在数学推理任务中，它让15亿参数的模型达到了54.9%和64.3%的平均准确率，同时训练过程非常稳定，不需要人工干预来防止训练崩溃。

Q3：普通研究者能使用JustRL方法吗？

A：可以的，这正是JustRL的一大优势。研究团队已经开源了代码和模型，普通研究者不需要复杂的技术实施就能使用这种方法。相同的参数设置可以直接应用到不同模型上，大大降低了强化学习训练的技术门槛。