type
status
date
slug
summary
tags
category
icon
password
org
文献zotero链接:

Efficient-Reasoning-Models - Google Drive
Abstract
如今的推理模型都依靠生成延长的思维链能够解决复杂的逻辑问题,但是在此过程中存在思维链过长、消耗资源太多、生成速度太慢等问题。针对这些问题,现存的工作大多在三个主要方面进行研究:
- shorter:让模型生成更短更高效的思维链;
- smaller:开发出推理能力很强但是更小的模型;
- faster:设计更加高效的解码策略来加速推理。
Introduction
思维链方面
一些研究揭示了不是越长的思维链就会有更好的效果,甚至可能会变差。
为了解决这种思维链冗余,现在提出了一些方法:
- 使用添加了长度惩罚的RL训练模型
- 用可变长度的思维链数据进行SFT
- 提示词驱动策略,包括:
- 指导推理路径
- 将输入引导到更有效的解决方案
- 隐式推理:在隐空间中进行推理,而不是生成思维链
模型大小方面
除了非常非常长的思维链以外,推理模型通常依赖非常大的模型达到很强的推理表现→这会导致很大的计算消耗和显存消耗→模型压缩。
- 蒸馏
- 量化
- 剪枝
除了这些直接减少模型参数量的方法,还有直接使用RL训练小模型的工作。
解码阶段
很多工作都聚焦于用更加高效的解码策略进行推理速度。
- 针对特定的Test-time scaling (TTS)策略进行加速优化
- 并行解码
- 问题分解

Why We Need Efficient Reasoning?

研究方面:
- 推理模型常常使用很长的思维链→依赖更大的模型
- 一些推理策略(Best-of-N,self-consistency)更加扩展了解码过程→计算、显存需求
- 长思维链会累计错误→会影响结果准确率
应用方面:
- 具身智能、智能体系统、实时平台(自动驾驶)要应对实时变化的交互场景→对效率和准确率有极高要求
- 不必要的推理过程可能会有安全风险,造成不可预测的威胁
🤩 Make Long CoT Short

强化学习方法
一个比较朴素的想法就是直接在RL训练中加入明确的长度惩罚。
- L1:利用RL训练模型,让模型能够根据prompt进行长度限制
- O1-Prune:让模型思维链缩短,解决长度不和谐问题
上一篇
Efficient Long CoT Reasoning in Small Language Models
下一篇
L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning
- Author:Wenxuan Wang
- URL:http://preview.tangly1024.com/article/ERM
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!