Efficient ReasoningL1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning让推理模型能精确地自适应地控制思维链长度,优化目标: 1. 最终输出的准确率 2. 生成符合提示词中具体长度限制的推理序列 Make Long CoT Short RL-based Methods 推荐 Reasoning
学习笔记Efficient Long CoT Reasoning in Small Language Models该文章提出了一种高效的方法,通过带回溯的二分剪裁算法来修剪冗余的思考步骤,并开创性地让小模型自己(On-policy)来验证数据的有效性,从而为其量身定制出简洁且易于学习的推理样本,解决了长链思考能力难以被有效蒸馏的问题。 论文 Reasoning SLM