Lazy loaded image
DAST: Difficulty-Adaptive Slow Thinking for Large Reasoning Models
Words 1504Read Time 4 min
2025-6-17
2025-6-30
type
status
date
slug
summary
tags
category
icon
password
org

📝 主要贡献

解决的问题还是推理大模型的overthinking问题,会生成冗余的思维链,更细节的问题是,目前的研究都是one-size-fits-all的策略,可能对推理表现产生负面影响,因为对于复杂问题来说足够的思维链长度非常有必要→要针对问题难度自适应思维链长度→提出DifficultyAdaptive Slow-Thinking (DAST)框架。
  1. 提出了DAST框架,可以缓解overthinking现象并且保留推理能力
  1. 提出一个difficulty quantification metric(TLB),可以用于很多下游任务
  1. 实验证明了方法有效性

🧐 如何评估问题难度

  1. 使用ChatGPT之类的大模型对问题进行评价
  1. 对推理问题,可以使用采样的准确率进行评价

🤗 方法

思路:有长度预算,进行budget-preference training → 需要建立问题难度和长度预算之间的映射关系 → Token Length Budget (TLB) metric,根据问题难度动态缩放预算。
DAST的整体流程:
  1. 通过将其实际令牌长度与相应问题的TLB进行比较,将每个响应的初始奖励分数与思考过程进行校准
  1. 根据校准的奖励分数构建成对的budget-preference training dataset
  1. 用SimPO进行微调
notion image

TLB

提出的TLB和前人研究对比有什么优势:
  1. (Aggarwal and Welleck, 2025; Muennighoff et al., 2025)也用token budgets来控制推理的长度,但是都是通过预先定义好的规则人工构建的离散的budgets
  1. (Han et al., 2024)也是通过问题的复杂度来决定对应的token budgets,但是他需要迭代搜索完成,并且需要用提示词进行token数量限制的实验来约定最终的budgets,不够高效
文章中TLB的定义为:
notion image
其中p为使用LRM采样的准确率,Lr代表的是正确的采样的回答长度的平均值,Lmax指的是所有采样回答的最长长度。
这个budget的定义如何理解?
  1. 问题越简单,采样的准确率越低,budget更加接近正确采样的平均长度
  1. 问题越难,采样的准确率越高,budget更加接近所有采样的最大长度
  1. 即越简单的问题他使用合适的比较短的长度就能解决,越难的问题希望给他更大的预算
notion image
这个采样使用的LRM如何选择,怎么确保这个budget对训练模型是合适的?
  1. LRM就是需要训练改进的模型本身,是一个适合自己的budgets
  1. 一个是针对这个模型的budget设计
但是如何评价这个合不合适?只能通过最后的训练结果好不好评价吗?

Reward Score Calibration

如何根据budgets进行reward设计?
得到了合适的预算后,DAST并不是简单地把超过预算的答案一棍子打死,而是用它来校准奖励分数,从而在后续的偏好学习中指导模型。
notion image
  1. 当生成的答案是正确的时候,如果答案的长度超过了budgets,会让奖励衰减,如果答案长度不足budgets会让奖励变多,即鼓励模型用更短的长度生成正确答案
  1. 当生成的答案是错误的时候,如果答案长度不足budgets,意味着需要更多的推理步骤,其惩罚会很大,越接近budgets他的惩罚会越小,但是对超过budget的回答不做惩罚的减小,即不鼓励也不惩罚更长的回复。
notion image

Budget Preference Data Construction

偏好数据集如何构建?
依据设计的reward进行构建:对于一个给定的问题和N个从模型中采样得到的回复可以得到budget以及reward,根据reward进行数据对的构建,分为两类:
  1. Dual-Correct Pair (DCP):两个回答都是正确的,但是正例比负例的reward显著高→让模型使用更短的思维链进行回答
  1. Dual-InCorrect Pair (DICP):两个回答都是错误的,正例的思维链更长,让模型有更多的推理尝试以生成正确的回复

Budget Preference Training

使用SimPO算法进行训练.
We chose SimPO due to its characteristic of being more sensitive in controlling answer length.
notion image

🎰 实验

模型选择:
  1. DeepSeek-R1-DistillQwen-7B (DS-7B)
  1. DeepSeek-R1-Distill-Qwen-32B (DS32B)
Benchmarks:
  1. MATH-500
  1. AIME2024
  1. GPQA
Baseline:
  1. Concise Thoughts (CCoT)(2024):“Be concise”加入提示词让模型生成简洁的思维链
  1. Chain of Draft (CoD)(2025):另一种prompt-based方法
  1. SFTShortest(2025):用最短的正确答案给模型进行SFT
  1. SimPOShortest(2024):偏好学习,最短的正确答案是正例,最长的是负例
  1. SimPOCosine(2025):将DAST的设置中的reward function改为cosine reward function,验证提出的reward function是否有效
  1. SimPOLenPenalty(2025):使用 Kimi k1. 5 中的reward function评价采样的回答,选出最高的和最低的答案组成正负例对,用SimPO训练
Metrics:
  1. ACC:最终答案的准确率
  1. LEN:回答的平均长度(TOKEN)
  1. C-LEN:正确回答的平均长度
  1. CR:压缩率
  1. C-CR:正确回答的压缩率

📎 实验结果

notion image
提升了准确率还缩短了思维链,对比而言,那些压缩率高的方法准确率降低明显,压缩率和他差不多或者更低的方法准确率也不如DAST。
notion image
针对不同的难度准确率都是最高,同时压缩率随着难度提升而减小,说明针对不同难度水平有不同的budget。
上一篇
Efficient Long CoT Reasoning in Small Language Models
下一篇
L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning