type
status
date
slug
summary
tags
category
icon
password
org
📝 主要贡献
Length Controlled Policy Optimization (LCPO)
目的:让推理模型能精确地自适应地控制思维链长度
优化目标:
- 最终输出的准确率
- 生成符合提示词中具体长度限制的推理序列
L1模型
使用LCPO训练L1模型,得到在固定token budgets情况下准确率的sota(math benchmarks),有很高水平的长度控制能力。
泛化能力
长度限制的L1模型能力不止在数学推理任务上很好,在分布外的任务(逻辑推理、general-domain benchmarks (MMLU))上表现也很好。
🤗 方法
目的:给模型根据指定长度限制生成思维链长度、同时保持推理结果正确的能力。
给定一段提示词 和一个目标长度 ,期望模型生成一段输出 ,其长度 让其和 的差 最小,同时保证生成的答案是正确的。
LCPO
- 准备:预训练模型 , 数据集 ,数据集只要最终答案,不用中间推理过程。
- 数据集预处理:见将数据集中的提示词进行处理,在每个提示词后面加上 ,其中 从最小n到最大n的整数中采样得到,最终得到新的训练数据。
- 训练算法:使用GRPO进行训练,reward有两部分
- 准确奖赏
- 长度惩罚
Maximum Length Constraint Mode
上面所说的是L1-Exact的目标,即让模型生成指定长度的思维链,还有一种目标是L1-Max,让模型不超过目标长度的思维链,只需要将reward修改如下即可。
- 逐渐惩罚超过目标长度的输出,而不是施加硬性截止(这是GRPO优化目标中梯度传播所必需的)
- 激励模型在不牺牲正确性的情况下在可能的情况下使用较少的token。 项可确保与不正确的答案相比,违反次要预算的正确答案仍然是首选。
🎰 实验
模型和数据集选择
数据集:DeepScaleR-Preview-Dataset
A mathematics dataset consisting of 40K question-answer pairs drawn from AIME, AMC, Omni-Math (Gao et al., 2024) and STILL (Min et al., 2024).
Benchmark:
- AIME2025
- MATH
- AMC
- Olympiad-Bench
- GPQA
- LSAT
- MMLU
基座模型:DeepScaleR-1.5B-Preview(训练时上下文窗口为4K,评估时8K)
A 1.5B-parameter model originally RL fine-tuned (from DeepSeekR1-Distill-Qwen-1.5B (DeepSeek-AI et al., 2025)) on this dataset with a 24K token context length.
📎 实验结果



这种图的在对比效率和准确率上的展示形式值得借鉴。

1.5B的小模型可以在token budget一定的情况下超过GPT-4o的表现。
This finding is remarkable, as to the best of our knowledge, this is the first demonstration that a 1.5B model can outperform frontier models such as GPT-4o, despite using the same generation length.
这L1模型是根据数学推理模型训过的,GPT-4o没有微调,并且Qwen-1.5和GPT-4o在没有训过的情况下差距也不大,🤔这样对比起来有什么意义吗🤔


一个挺有趣的现象,L1在不同的token budgets的情况下使用的推理策略是很不同的。
- Author:Wenxuan Wang
- URL:http://preview.tangly1024.com/article/213d0968-b245-80b0-ac38-f1c1733a9f27
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!