DAST: Difficulty-Adaptive Slow Thinking for Large Reasoning Models | Yummytanmo

Efficient Reasoning

RL-based Methods

Efficient Reasoning

Make Long CoT Short

DAST: Difficulty-Adaptive Slow Thinking for Large Reasoning Models

Words 1504Read Time≈ 4 min

2025-6-30

type

status

date

slug

summary

tags

category

icon

password

org

📌

原文链接：https://arxiv.org/abs/2503.04472

📝 主要贡献

解决的问题还是推理大模型的overthinking问题，会生成冗余的思维链，更细节的问题是，目前的研究都是one-size-fits-all的策略，可能对推理表现产生负面影响，因为对于复杂问题来说足够的思维链长度非常有必要→要针对问题难度自适应思维链长度→提出DifficultyAdaptive Slow-Thinking (DAST)框架。

提出了DAST框架，可以缓解overthinking现象并且保留推理能力

提出一个difficulty quantification metric（TLB），可以用于很多下游任务

实验证明了方法有效性

🧐 如何评估问题难度

使用ChatGPT之类的大模型对问题进行评价

对推理问题，可以使用采样的准确率进行评价

🤗 方法

思路：有长度预算，进行budget-preference training → 需要建立问题难度和长度预算之间的映射关系 → Token Length Budget (TLB) metric，根据问题难度动态缩放预算。

DAST的整体流程：

通过将其实际令牌长度与相应问题的TLB进行比较，将每个响应的初始奖励分数与思考过程进行校准

根据校准的奖励分数构建成对的budget-preference training dataset

用SimPO进行微调

notion image

TLB

提出的TLB和前人研究对比有什么优势：

(Aggarwal and Welleck, 2025; Muennighoff et al., 2025)也用token budgets来控制推理的长度，但是都是通过预先定义好的规则人工构建的离散的budgets

(Han et al., 2024)也是通过问题的复杂度来决定对应的token budgets，但是他需要迭代搜索完成，并且需要用提示词进行token数量限制的实验来约定最终的budgets，不够高效

文章中TLB的定义为：

notion image

其中p为使用LRM采样的准确率，Lr代表的是正确的采样的回答长度的平均值，Lmax指的是所有采样回答的最长长度。

这个budget的定义如何理解？

问题越简单，采样的准确率越低，budget更加接近正确采样的平均长度

问题越难，采样的准确率越高，budget更加接近所有采样的最大长度

即越简单的问题他使用合适的比较短的长度就能解决，越难的问题希望给他更大的预算

notion image

❓

这个采样使用的LRM如何选择，怎么确保这个budget对训练模型是合适的？

LRM就是需要训练改进的模型本身，是一个适合自己的budgets

一个是针对这个模型的budget设计

但是如何评价这个合不合适？只能通过最后的训练结果好不好评价吗？

Reward Score Calibration

如何根据budgets进行reward设计？

得到了合适的预算后，DAST并不是简单地把超过预算的答案一棍子打死，而是用它来校准奖励分数，从而在后续的偏好学习中指导模型。

notion image

当生成的答案是正确的时候，如果答案的长度超过了budgets，会让奖励衰减，如果答案长度不足budgets会让奖励变多，即鼓励模型用更短的长度生成正确答案

当生成的答案是错误的时候，如果答案长度不足budgets，意味着需要更多的推理步骤，其惩罚会很大，越接近budgets他的惩罚会越小，但是对超过budget的回答不做惩罚的减小，即不鼓励也不惩罚更长的回复。

notion image

Budget Preference Data Construction

偏好数据集如何构建？

依据设计的reward进行构建：对于一个给定的问题和N个从模型中采样得到的回复可以得到budget以及reward，根据reward进行数据对的构建，分为两类：

Dual-Correct Pair (DCP)：两个回答都是正确的，但是正例比负例的reward显著高→让模型使用更短的思维链进行回答

Dual-InCorrect Pair (DICP)：两个回答都是错误的，正例的思维链更长，让模型有更多的推理尝试以生成正确的回复

Budget Preference Training

使用SimPO算法进行训练.

We chose SimPO due to its characteristic of being more sensitive in controlling answer length.

notion image

🎰 实验

模型选择：

DeepSeek-R1-DistillQwen-7B (DS-7B)

DeepSeek-R1-Distill-Qwen-32B (DS32B)

Benchmarks：

MATH-500

AIME2024

GPQA

Baseline：

Concise Thoughts (CCoT)（2024）：“Be concise”加入提示词让模型生成简洁的思维链

Chain of Draft (CoD)（2025）：另一种prompt-based方法

SFTShortest（2025）：用最短的正确答案给模型进行SFT

SimPOShortest（2024）：偏好学习，最短的正确答案是正例，最长的是负例

SimPOCosine（2025）：将DAST的设置中的reward function改为cosine reward function，验证提出的reward function是否有效

SimPOLenPenalty（2025）：使用 Kimi k1. 5 中的reward function评价采样的回答，选出最高的和最低的答案组成正负例对，用SimPO训练

Metrics：

ACC：最终答案的准确率

LEN：回答的平均长度（TOKEN）

C-LEN：正确回答的平均长度

CR：压缩率

C-CR：正确回答的压缩率

📎 实验结果

notion image

提升了准确率还缩短了思维链，对比而言，那些压缩率高的方法准确率降低明显，压缩率和他差不多或者更低的方法准确率也不如DAST。

notion image

针对不同的难度准确率都是最高，同时压缩率随着难度提升而减小，说明针对不同难度水平有不同的budget。

终端里的超能力：我的 Gemini CLI 深度探索之旅

L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning

L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning

Author:Wenxuan Wang
URL:http://preview.tangly1024.com/article/215d0968-b245-8011-aa78-e76f56ff56f0
Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!

Relate Posts

L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning

Lazy loaded image

When More is Less: Understanding Chain-of-Thought Length in LLMs

Lazy loaded image

O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning

Lazy loaded image

Lazy loaded image

Lazy loaded image

Lazy loaded image

Catalog

你好！我是

Wenxuan Wang

-- 感谢您的支持 ---

Catalog

微信公众号

关注微信公众号了解更多

点击关注公众号

Latest posts

Lazy loaded image

Lazy loaded image

Lazy loaded image

Lazy loaded image

Lazy loaded image

Lazy loaded image

⁹

Efficient Reasoning

³

Make Long CoT Short

³

RL-based Methods

³

²

²

²

²

²

²

¹

¹

¹

¹

¹

¹

¹

¹

文章数:

14

建站天数:

186 天