Efficient ReasoningL1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning让推理模型能精确地自适应地控制思维链长度,优化目标: 1. 最终输出的准确率 2. 生成符合提示词中具体长度限制的推理序列 Make Long CoT Short RL-based Methods 推荐 Reasoning
Efficient ReasoningWhen More is Less: Understanding Chain-of-Thought Length in LLMs该研究挑战了“Chain-of-Thought (CoT)越长效果越好”的普遍看法。 Efficient Reasoning 论文 推荐 文字 Background
Efficient ReasoningO1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning提出了一种名为O1-Pruner的微调方法,它解决了长思辨模型因推理冗长而效率低下的问题,成功地在大幅提升模型推理速度的同时,还保持乃至提升了其准确率。 RL-based Methods 推荐 Efficient Reasoning Make Long CoT Short
学习笔记Efficient Long CoT Reasoning in Small Language Models该文章提出了一种高效的方法,通过带回溯的二分剪裁算法来修剪冗余的思考步骤,并开创性地让小模型自己(On-policy)来验证数据的有效性,从而为其量身定制出简洁且易于学习的推理样本,解决了长链思考能力难以被有效蒸馏的问题。 论文 Reasoning SLM