Lazy loaded image
Efficient Reasoning
Words 793Read Time 2 min
2025-6-10
2025-6-17
type
status
date
slug
summary
tags
category
icon
password
org
文献zotero链接:
Google DriveGoogle DriveEfficient-Reasoning-Models - Google Drive
Efficient Reasoning

Abstract

如今的推理模型都依靠生成延长的思维链能够解决复杂的逻辑问题,但是在此过程中存在思维链过长、消耗资源太多、生成速度太慢等问题。针对这些问题,现存的工作大多在三个主要方面进行研究:
  1. shorter:让模型生成更短更高效的思维链;
  1. smaller:开发出推理能力很强但是更小的模型;
  1. faster:设计更加高效的解码策略来加速推理。

Introduction

思维链方面

一些研究揭示了不是越长的思维链就会有更好的效果,甚至可能会变差。
为了解决这种思维链冗余,现在提出了一些方法:
  1. 使用添加了长度惩罚的RL训练模型
  1. 可变长度的思维链数据进行SFT
  1. 提示词驱动策略,包括:
    1. 指导推理路径
    2. 将输入引导到更有效的解决方案
  1. 隐式推理:在隐空间中进行推理,而不是生成思维链

模型大小方面

除了非常非常长的思维链以外,推理模型通常依赖非常大的模型达到很强的推理表现→这会导致很大的计算消耗和显存消耗→模型压缩。
  1. 蒸馏
  1. 量化
  1. 剪枝
除了这些直接减少模型参数量的方法,还有直接使用RL训练小模型的工作。

解码阶段

很多工作都聚焦于用更加高效的解码策略进行推理速度。
  1. 针对特定的Test-time scaling (TTS)策略进行加速优化
  1. 并行解码
  1. 问题分解
notion image

Why We Need Efficient Reasoning?

notion image
研究方面:
  1. 推理模型常常使用很长的思维链→依赖更大的模型
  1. 一些推理策略(Best-of-N,self-consistency)更加扩展了解码过程→计算、显存需求
  1. 长思维链会累计错误→会影响结果准确率
应用方面:
  1. 具身智能、智能体系统、实时平台(自动驾驶)要应对实时变化的交互场景→对效率和准确率有极高要求
  1. 不必要的推理过程可能会有安全风险,造成不可预测的威胁

🤩 Make Long CoT Short

notion image

强化学习方法

一个比较朴素的想法就是直接在RL训练中加入明确的长度惩罚。
  1. L1:利用RL训练模型,让模型能够根据prompt进行长度限制
  1. O1-Prune:让模型思维链缩短,解决长度不和谐问题
 
上一篇
Efficient Long CoT Reasoning in Small Language Models
下一篇
L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning