Lazy loaded image
L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning
Words 859Read Time 3 min
2025-3-6
2025-6-15
type
status
date
slug
summary
tags
category
icon
password
org

📝 主要贡献

Length Controlled Policy Optimization (LCPO)

目的:让推理模型能精确地自适应地控制思维链长度
优化目标:
  1. 最终输出的准确率
  1. 生成符合提示词中具体长度限制的推理序列

L1模型

使用LCPO训练L1模型,得到在固定token budgets情况下准确率的sota(math benchmarks),有很高水平的长度控制能力。

泛化能力

长度限制的L1模型能力不止在数学推理任务上很好,在分布外的任务(逻辑推理、general-domain benchmarks (MMLU))上表现也很好。

🤗 方法

💡
目的:给模型根据指定长度限制生成思维链长度、同时保持推理结果正确的能力。
给定一段提示词 和一个目标长度 ,期望模型生成一段输出 ,其长度 让其和 的差 最小,同时保证生成的答案是正确的。

LCPO

  • 准备:预训练模型 , 数据集 ,数据集只要最终答案,不用中间推理过程。
  • 数据集预处理:见将数据集中的提示词进行处理,在每个提示词后面加上 ,其中 从最小n到最大n的整数中采样得到,最终得到新的训练数据。
  • 训练算法:使用GRPO进行训练,reward有两部分
  1. 准确奖赏
  1. 长度惩罚

Maximum Length Constraint Mode

上面所说的是L1-Exact的目标,即让模型生成指定长度的思维链,还有一种目标是L1-Max,让模型不超过目标长度的思维链,只需要将reward修改如下即可。
  1. 逐渐惩罚超过目标长度的输出,而不是施加硬性截止(这是GRPO优化目标中梯度传播所必需的)
  1. 激励模型在不牺牲正确性的情况下在可能的情况下使用较少的token。 项可确保与不正确的答案相比,违反次要预算的正确答案仍然是首选。

🎰 实验

模型和数据集选择

数据集:DeepScaleR-Preview-Dataset
A mathematics dataset consisting of 40K question-answer pairs drawn from AIME, AMC, Omni-Math (Gao et al., 2024) and STILL (Min et al., 2024).
Benchmark:
  1. AIME2025
  1. MATH
  1. AMC
  1. Olympiad-Bench
  1. GPQA
  1. LSAT
  1. MMLU
基座模型:DeepScaleR-1.5B-Preview(训练时上下文窗口为4K,评估时8K)
A 1.5B-parameter model originally RL fine-tuned (from DeepSeekR1-Distill-Qwen-1.5B (DeepSeek-AI et al., 2025)) on this dataset with a 24K token context length.
 

📎 实验结果

notion image
notion image
notion image
🤔
这种图的在对比效率和准确率上的展示形式值得借鉴。
notion image
1.5B的小模型可以在token budget一定的情况下超过GPT-4o的表现。
This finding is remarkable, as to the best of our knowledge, this is the first demonstration that a 1.5B model can outperform frontier models such as GPT-4o, despite using the same generation length.
这L1模型是根据数学推理模型训过的,GPT-4o没有微调,并且Qwen-1.5和GPT-4o在没有训过的情况下差距也不大,🤔这样对比起来有什么意义吗🤔
notion image
notion image
一个挺有趣的现象,L1在不同的token budgets的情况下使用的推理策略是很不同的。
 
上一篇
Efficient Reasoning
下一篇
When More is Less: Understanding Chain-of-Thought Length in LLMs