学习笔记Efficient Long CoT Reasoning in Small Language Models该文章提出了一种高效的方法,通过带回溯的二分剪裁算法来修剪冗余的思考步骤,并开创性地让小模型自己(On-policy)来验证数据的有效性,从而为其量身定制出简洁且易于学习的推理样本,解决了长链思考能力难以被有效蒸馏的问题。 论文 Reasoning SLM
Efficient ReasoningWhen More is Less: Understanding Chain-of-Thought Length in LLMs Efficient Reasoning 论文 推荐 文字