L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning

type

status

date

slug

summary

📝 主要贡献

Length Controlled Policy Optimization (LCPO)

目的：让推理模型能精确地自适应地控制思维链长度

优化目标：

最终输出的准确率

生成符合提示词中具体长度限制的推理序列

L1模型

使用LCPO训练L1模型，得到在固定token budgets情况下准确率的sota（math benchmarks），有很高水平的长度控制能力。

泛化能力

长度限制的L1模型能力不止在数学推理任务上很好，在分布外的任务（逻辑推理、general-domain benchmarks (MMLU)）上表现也很好。

🤗 方法

💡

目的：给模型根据指定长度限制生成思维链长度、同时保持推理结果正确的能力。

给定一段提示词和一个目标长度，期望模型生成一段输出，其长度让其和的差最小，同时保证生成的答案是正确的。

LCPO

准备：预训练模型，数据集，数据集只要最终答案，不用中间推理过程。

数据集预处理：见将数据集中的提示词进行处理，在每个提示词后面加上，其中从最小n到最大n的整数中采样得到，最终得到新的训练数据。

训练算法：使用GRPO进行训练，reward有两部分

准确奖赏

长度惩罚

Maximum Length Constraint Mode

上面所说的是L1-Exact的目标，即让模型生成指定长度的思维链，还有一种目标是L1-Max，让模型不超过目标长度的思维链，只需要将reward修改如下即可。

逐渐惩罚超过目标长度的输出，而不是施加硬性截止（这是GRPO优化目标中梯度传播所必需的）

激励模型在不牺牲正确性的情况下在可能的情况下使用较少的token。项可确保与不正确的答案相比，违反次要预算的正确答案仍然是首选。

🎰 实验

模型和数据集选择

数据集：DeepScaleR-Preview-Dataset

A mathematics dataset consisting of 40K question-answer pairs drawn from AIME, AMC, Omni-Math (Gao et al., 2024) and STILL (Min et al., 2024).

Benchmark：

AIME2025

MATH

Olympiad-Bench

GPQA

LSAT

MMLU

基座模型：DeepScaleR-1.5B-Preview（训练时上下文窗口为4K，评估时8K）

A 1.5B-parameter model originally RL fine-tuned (from DeepSeekR1-Distill-Qwen-1.5B (DeepSeek-AI et al., 2025)) on this dataset with a 24K token context length.

📎 实验结果

🤔

这种图的在对比效率和准确率上的展示形式值得借鉴。

1.5B的小模型可以在token budget一定的情况下超过GPT-4o的表现。

This finding is remarkable, as to the best of our knowledge, this is the first demonstration that a 1.5B model can outperform frontier models such as GPT-4o, despite using the same generation length.

❓

这L1模型是根据数学推理模型训过的，GPT-4o没有微调，并且Qwen-1.5和GPT-4o在没有训过的情况下差距也不大，🤔这样对比起来有什么意义吗🤔