type
status
date
slug
summary
tags
category
icon
password
org
📝 主要贡献
解决的问题还是推理大模型的overthinking问题,会生成冗余的思维链,更细节的问题是,目前的研究都是one-size-fits-all的策略,可能对推理表现产生负面影响,因为对于复杂问题来说足够的思维链长度非常有必要→要针对问题难度自适应思维链长度→提出DifficultyAdaptive Slow-Thinking (DAST)框架。
- 提出了DAST框架,可以缓解overthinking现象并且保留推理能力
- 提出一个difficulty quantification metric(TLB),可以用于很多下游任务
- 实验证明了方法有效性
🧐 如何评估问题难度
- 使用ChatGPT之类的大模型对问题进行评价
- 对推理问题,可以使用采样的准确率进行评价
🤗 方法
思路:有长度预算,进行budget-preference training → 需要建立问题难度和长度预算之间的映射关系 → Token Length Budget (TLB) metric,根据问题难度动态缩放预算。
DAST的整体流程:
- 通过将其实际令牌长度与相应问题的TLB进行比较,将每个响应的初始奖励分数与思考过程进行校准
- 根据校准的奖励分数构建成对的budget-preference training dataset
- 用SimPO进行微调

TLB
提出的TLB和前人研究对比有什么优势:
- (Aggarwal and Welleck, 2025; Muennighoff et al., 2025)也用token budgets来控制推理的长度,但是都是通过预先定义好的规则人工构建的离散的budgets
- (Han et al., 2024)也是通过问题的复杂度来决定对应的token budgets,但是他需要迭代搜索完成,并且需要用提示词进行token数量限制的实验来约定最终的budgets,不够高效
文章中TLB的定义为:

其中p为使用LRM采样的准确率,Lr代表的是正确的采样的回答长度的平均值,Lmax指的是所有采样回答的最长长度。
这个budget的定义如何理解?
- 问题越简单,采样的准确率越低,budget更加接近正确采样的平均长度
- 问题越难,采样的准确率越高,budget更加接近所有采样的最大长度
- 即越简单的问题他使用合适的比较短的长度就能解决,越难的问题希望给他更大的预算

这个采样使用的LRM如何选择,怎么确保这个budget对训练模型是合适的?
- LRM就是需要训练改进的模型本身,是一个适合自己的budgets
- 一个是针对这个模型的budget设计
但是如何评价这个合不合适?只能通过最后的训练结果好不好评价吗?
Reward Score Calibration
如何根据budgets进行reward设计?
得到了合适的预算后,DAST并不是简单地把超过预算的答案一棍子打死,而是用它来校准奖励分数,从而在后续的偏好学习中指导模型。

- 当生成的答案是正确的时候,如果答案的长度超过了budgets,会让奖励衰减,如果答案长度不足budgets会让奖励变多,即鼓励模型用更短的长度生成正确答案
- 当生成的答案是错误的时候,如果答案长度不足budgets,意味着需要更多的推理步骤,其惩罚会很大,越接近budgets他的惩罚会越小,但是对超过budget的回答不做惩罚的减小,即不鼓励也不惩罚更长的回复。

Budget Preference Data Construction
偏好数据集如何构建?
依据设计的reward进行构建:对于一个给定的问题和N个从模型中采样得到的回复可以得到budget以及reward,根据reward进行数据对的构建,分为两类:
- Dual-Correct Pair (DCP):两个回答都是正确的,但是正例比负例的reward显著高→让模型使用更短的思维链进行回答
- Dual-InCorrect Pair (DICP):两个回答都是错误的,正例的思维链更长,让模型有更多的推理尝试以生成正确的回复
Budget Preference Training
使用SimPO算法进行训练.
We chose SimPO due to its characteristic of being more sensitive in controlling answer length.

🎰 实验
模型选择:
- DeepSeek-R1-DistillQwen-7B (DS-7B)
- DeepSeek-R1-Distill-Qwen-32B (DS32B)
Benchmarks:
- MATH-500
- AIME2024
- GPQA
Baseline:
- Concise Thoughts (CCoT)(2024):“Be concise”加入提示词让模型生成简洁的思维链
- Chain of Draft (CoD)(2025):另一种prompt-based方法
- SFTShortest(2025):用最短的正确答案给模型进行SFT
- SimPOShortest(2024):偏好学习,最短的正确答案是正例,最长的是负例
- SimPOCosine(2025):将DAST的设置中的reward function改为cosine reward function,验证提出的reward function是否有效
- SimPOLenPenalty(2025):使用 Kimi k1. 5 中的reward function评价采样的回答,选出最高的和最低的答案组成正负例对,用SimPO训练
Metrics:
- ACC:最终答案的准确率
- LEN:回答的平均长度(TOKEN)
- C-LEN:正确回答的平均长度
- CR:压缩率
- C-CR:正确回答的压缩率
📎 实验结果

提升了准确率还缩短了思维链,对比而言,那些压缩率高的方法准确率降低明显,压缩率和他差不多或者更低的方法准确率也不如DAST。

针对不同的难度准确率都是最高,同时压缩率随着难度提升而减小,说明针对不同难度水平有不同的budget。
上一篇
Efficient Long CoT Reasoning in Small Language Models
下一篇
L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning
- Author:Wenxuan Wang
- URL:http://preview.tangly1024.com/article/215d0968-b245-8011-aa78-e76f56ff56f0
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!