Efficient Reasoning | Yummytanmo

type

status

date

slug

summary

Abstract

如今的推理模型都依靠生成延长的思维链能够解决复杂的逻辑问题，但是在此过程中存在思维链过长、消耗资源太多、生成速度太慢等问题。针对这些问题，现存的工作大多在三个主要方面进行研究：

shorter：让模型生成更短更高效的思维链；

smaller：开发出推理能力很强但是更小的模型；

faster：设计更加高效的解码策略来加速推理。

GitHub：https://github.com/fscdc/Awesome-Efficient-Reasoning-Models

Introduction

思维链方面

一些研究揭示了不是越长的思维链就会有更好的效果，甚至可能会变差。

When More is Less: Understanding Chain-of-Thought Length in LLMs

Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning

The Impact of Reasoning Step Length on Large Language Models

为了解决这种思维链冗余，现在提出了一些方法：

使用添加了长度惩罚的RL训练模型

用可变长度的思维链数据进行SFT

提示词驱动策略，包括：

指导推理路径
将输入引导到更有效的解决方案

隐式推理：在隐空间中进行推理，而不是生成思维链

模型大小方面

除了非常非常长的思维链以外，推理模型通常依赖非常大的模型达到很强的推理表现→这会导致很大的计算消耗和显存消耗→模型压缩。

蒸馏

量化

剪枝

除了这些直接减少模型参数量的方法，还有直接使用RL训练小模型的工作。

https://arxiv.org/pdf/2312.12832 https://arxiv.org/abs/2502.12143
https://arxiv.org/abs/2411.14698

解码阶段

很多工作都聚焦于用更加高效的解码策略进行推理速度。

针对特定的Test-time scaling (TTS)策略进行加速优化

并行解码

Skeleton-of-Thought: Prompting LLMs for Efficient Parallel Generation

This work aims at decreasing the end-to-end generation latency of large language models (LLMs). One of the major causes of the high generation latency is the sequential decoding approach adopted...

https://arxiv.org/abs/2307.15337

问题分解

Atom of Thoughts for Markov LLM Test-Time Scaling

Large Language Models (LLMs) achieve superior performance through training-time scaling, and test-time scaling further enhances their capabilities by conducting effective reasoning during...

https://arxiv.org/abs/2502.12018

Why We Need Efficient Reasoning？

研究方面：

推理模型常常使用很长的思维链→依赖更大的模型

一些推理策略（Best-of-N，self-consistency）更加扩展了解码过程→计算、显存需求

长思维链会累计错误→会影响结果准确率

应用方面：

具身智能、智能体系统、实时平台（自动驾驶）要应对实时变化的交互场景→对效率和准确率有极高要求

不必要的推理过程可能会有安全风险，造成不可预测的威胁

🤩 Make Long CoT Short

强化学习方法

一个比较朴素的想法就是直接在RL训练中加入明确的长度惩罚。

L1：利用RL训练模型，让模型能够根据prompt进行长度限制

L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning

O1-Prune：让模型思维链缩短，解决长度不和谐问题

O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning