type
status
date
slug
summary
tags
category
icon
password
org
Open AI o1, QWQ 和 Deepseek-R1 scale up the length of CoT steps 显著提高了推理表现
(Wei et al., 2022b; Wang et al., 2023a; Kojima et al., 2022) CoT prompting
对SLM提出新的Challenge
They also introduce new challenges to small language models (SLMs) with about 7B parameters which often use distillation methods to learn such long CoT reasoning (Guo et al., 2025; Face, 2025).
open-r1
huggingface • Updated Jun 14, 2025
有redundant reasoning steps
generated long CoT traces often contain many redundant reasoning steps even to the very simple question (Chen et al., 2025; Aggarwal and Welleck, 2025; Yang et al., 2025; Zhang et al., 2025)
Those redundant reasoning steps may not only bring unnecessary computation burden during test time, but also affect the reasoning performance (Sui et al., 2025; Aggarwal and Welleck, 2025; Wu et al., 2025; Marjanovi ́c et al., 2025)
这些冗余的推理步骤不仅会带来不必要的计算消耗,还会影响推理表现,并且会影响蒸馏过程。
如何解决这个issue
一般是启发式的方法
minimum reasoning length with correct final answer (Chen et al., 2025), design length based rewards for reinforcement learning (Aggarwal and Welleck, 2025; Yi and Wang, 2025; Yang et al., 2025), or advanced prompting methods (Wu et al., 2025; Munkhbat et al., 2025; Xia et al., 2025; Han et al., 2025; Nayab et al., 2025).
要么依赖于reward的重新设计,或者不考虑目标SLM在选择长COT训练数据时的推理能力。
How can high-quality CoT traces generated by large reasoning models be efficiently distilled into SLMs?
Contributions
思路:
- 存在冗余部分→对长CoT删减冗余部分(binary cutting)
- 通过部分思维链SLM就可以推理出正确结果,并且针对不同SLM所需的思维链片段也不相同→on-policy distillation method加强binary cutting,对SLM进行针对性选择partial segments
- 使用定制化的CoT数据对SLM进行fine-tune(SFT + DPO)
贡献:
- 观察到LSM的思维链有不必须的推理步骤被证明是对蒸馏有害的
- 提出一个简单高效的削减冗余推理步骤的方法
- 实验证明了该方法可以让SLM更高效的推理,在保持推理表现的同时减少了冗余步骤的生成
Related Work
针对长思维链的冗余
- overthinking problem 会导致效率低下甚至影响准确率
- 解决方法
- 启发式方法:截断CoT到能够得到正确结果的最小前缀
- 强化学习方法:加入长度惩罚的reward function
- alternative prompting techniques:
以上解决方法忽略了不同SLM的推理能力不同,这篇文章的方法为目标SLM定制CoT去蒸馏。
模型蒸馏
知识蒸馏:
CoT蒸馏
以上的蒸馏忽略了冗余和不必要的推理过程的对能力有限的SLM 的不利影响
Method
binary cutting
对CoT文本进行步骤级别的处理
二分法加回溯→高效找到最短前缀

On-Policy Validation
在找到最短前缀的过程中需要一个验证过程,这里使用On-Policy Validation。
现存的裁剪方法(FCS First-Correct Solutions strategy)使用一个另外的判别模型进行验证,假设了一个权威的判别准则→这忽略了“不同SLM具有非常不同的推理偏差(biases)和能力(strenths)”的事实,使用SLM自己作为判别模型:

这个on-policy的方法让裁剪出来的CoT能和目标要训练的SLM的能力相匹配。
为什么前人的judge-model都选用的是一个addtional的大模型呢?他们是什么考虑呢?
Training
SFT + DPO
使用 进行SFT
使用偏好数据集进行DPO训练,其中good标签为经过处理的数据、bad标签为原始的思维链
两个标签的数据的长度有显著差异,这样学习到的能力会是好的吗,为什么会有效?只是学到不会冗余思考吗?
Experiment
- Datasets
- GSM8K
- MATH
- AIME
- Models
- Llama-3.18B-Instruct
- Qwen2.5-7BInstruct
- Implementation Details
- 使用的数据集为
OpenR1-Math-220k
、NuminaMath 1.5
- 3 epochs SFT和1 epoch DPO
- lr = 1e-6
We also noticed that single DPO training can also decrease the likelihood of the “good” response, thus we add the SFT loss with a weight of 0.3 into Eq. 3 for stable performance.
Results





- Author:Wenxuan Wang
- URL:http://preview.tangly1024.com/article/20ed0968-b245-808c-98c5-d3db5fbbcfc7
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!