type
status
date
slug
summary
tags
category
icon
password
org
并不是思维链越长模型的推理效果就越好
- 对模型而言存在一个最优的思维链长度
- 模型对短的高效的思维链有偏好,即针对一个问题,尽可能使用短的思维链会提高其准确率
- 探索了使用最佳长度思维链数据训练如何显著提高性能,以及如何通过熵措施过滤过多的思维链可以使推理时的推理性能受益

针对现实的模型的一些发现:
- 更大的模型倾向于使用更短的思维链去达到最好的推理效果
- 更难的任务要求更长的最优思维链长度
- 使用最佳长度的思维链的表现显著优于使用最长长度的思维链

合成实验中的思维链行为:
- 越难的任务要求的推理每步的难度越难
- 越难的任务最优思维链长度越长、越大的模型最优思维链长度越短
- 随着RL训练,逐渐更偏好更短的思维链

💯一些规律和启示:
- 自适应的思维链长度很重要:难的问题要更长的思维链长度,针对一个问题,生成的思维链长了、短了都会影响模型的效果,揭示了一个好的推理模型应该针对问题的难度调整思维链长度
- 自适应的每步计算量很有效:针对更难的问题,仅仅增加简单步骤的数量不如增减每个模型处理的子任务的复杂度有效;但是现在使用固定的Transformer层的LLM调整其每步计算深度适应不同子任务的能力有限,说明他们的推理策略可能一直都会是次优解,达不到最优。有些新工作(looped Transformers)在这方面做出尝试。
This suggests that for harder problems, simply increasing the number of simple steps may not be as effective as increasing the complexity of each sub-task the model tackles within the CoT. Current LLMs with fixed Transformer layers have limited intrinsic ability to adapt their per-step computational depth for different sub-tasks. This implies that their reasoning strategy might remain suboptimal. In contrast, recent advancements like looped Transformers, which enable adaptive recurrent depth [14, 8], could offer a more promising avenue for dynamically adjusting per-step computation to align with this observed need, potentially leading to better reasoning performance.
- 根据模型适应的思维链数据也很重要:随着大模型能力的增加,他的最优思维链长度减小,因为更强的模型在推理的每步中能有效的处理更加复杂的子任务,就要求更少的推理步数。→对训练数据的构造有重要意义,针对不同的模型,要针对模型能力定制最优的每步复杂度的思维链数据,现在的很多工作,都是使用同样的思维链数据训练不同大小的模型或者直接用大模型的思维链蒸馏小模型,这样都会是次优解,小模型无法消化大模型的思维链(大模型每步的复杂度较高,小模型每步的计算能力没那么强)
- 强化学习的校准推理行为:RL训练过程,会隐式地这让LLM生成的思维链长度越来越接近最优思维链长度,从而表现出简单性偏好。→为理解RL在LLM训练中的好处提供了一个新的观点:即使用于预训练或监督微调的最初的思维链数据是次优的(例如,与模型大小或任务复杂性不匹配),RL也可以帮助校准模型的行为,以使该模型的行为具有更优的长度。
上一篇
L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning
下一篇
O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning
- Author:Wenxuan Wang
- URL:http://preview.tangly1024.com/article/211d0968-b245-8015-bf48-c89cb9f3ee83
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!