Lazy loaded image
研究调研
Research Proposal for MATRL
Words 639Read Time 2 min
2025-6-2
2025-6-2
type
status
date
slug
summary
tags
category
icon
password
notion image

研究背景

针对传统RL训练效率低的问题,结合TL和RL,提升效率和在MAS中的表现。

内容:

解决问题:
  • 原MAS中有已训练好的N个agent,需要增加agent,从0开始训练费时费力;
  • 单agent在不同设置不同环境下进行rl训练,将表现好的agent的经验迁移至其他agent
场景:
  • 游戏
    • 狼人杀(对抗),在原有设置下,将一个已训练完成的agent换成新agnent进行TRL,对比该agent的胜率,对比表现
    • waterworld(协作)
      • notion image
  • 交通
  • 无人机编队
  • 机器人协作

前期实验结果/计划实验设置:

在剪刀石头布场景下,试验一下结果
  • 先使用rl对agent进行优化
  • 将训练后的agent经验迁移至新agent,对比决策分布
notion image

问题:

  • 必要性?
  • MARL运用范围小,单agentRL都难以sim2real,一般只用在游戏中实验,没有实际生活中的应用?
  • 怎么在一个实际搭建的系统(非游戏)中使用这样的方法:
    • 一是什么场景需要这样,新的agent加入快速训练,一般都是直接训好一套MARL进行执行即可
    • 二是该系统如果比较复杂,难以sim2real
  • 如何寻找创新点?想法从哪里来

关键要点总结

  • 研究目标:通过结合迁移学习(TL)和强化学习(RL)来提高多智能体系统(MAS)的训练效率
  • 应用场景:包括游戏(狼人杀、waterworld)、交通系统、无人机编队和机器人协作
  • 实验计划:以剪刀石头布为初步验证场景,对比迁移前后的决策分布
  • 主要挑战:研究必要性论证、实际应用场景的确定、sim2real转化问题、创新点挖掘
  • 研究目标:通过结合迁移学习(TL)和强化学习(RL)来提高多智能体系统(MAS)的训练效率
  • 应用场景:包括游戏(狼人杀、waterworld)、交通系统、无人机编队和机器人协作
  • 实验计划:以剪刀石头布为初步验证场景,对比迁移前后的决策分布
  • 主要挑战:研究必要性论证、实际应用场景的确定、sim2real转化问题、创新点挖掘
上一篇
LlamaFactory
下一篇
Matplotlib