如何将强化学习应用于连续动作空间?
machine-learning
6
0

我正在尝试让代理学习强化学习设置中最佳执行某些任务所需的鼠标移动(即,奖励信号是唯一的学习反馈)。

我希望使用Q学习技术,但是尽管我找到了一种将这种方法扩展到连续状态空间的方法 ,但我似乎还无法弄清楚如何用连续动作空间解决问题。

我可以强迫所有鼠标移动到一定程度,并且只能在一定数量的不同方向上移动,但是使动作离散的任何合理方式都会产生巨大的动作空间。由于标准的Q学习需要代理评估所有可能的动作,因此这种近似值在任何实际意义上都无法解决问题。

参考资料:
Stack Overflow
收藏
评论
共 5 个回答
高赞 时间 活跃

有很多方法可以将强化学习扩展到连续的动作。一种方法是使用演员批评方法。另一种方法是使用策略梯度方法。

可以在以下在线论文中找到对不同方法的相当广泛的解释: 连续状态和动作空间中的强化学习 (由Hado van Hasselt和Marco A. Wiering撰写)。

收藏
评论

时间很快到了今年,从DeepMind人们提出了解决以上两个连续状态和行为空间了深刻的强化学习演员评论家方法。它基于一种称为确定性策略梯度的技术。请参阅论文“ 通过深度强化学习进行连续控制”和一些实现

收藏
评论

我知道这篇文章有些过时了,但是在2016年,有人提出了一种将Q学习应用于连续动作空间的方法,以替代演员批评方法。这称为归一化优势函数(NAF)。这是本文: 具有基于模型的加速的持续深度Q学习

收藏
评论

处理这个问题的常用方法是使用行为者批判方法 。这些自然地延伸到连续的动作空间。基本的Q学习在使用近似法时可能会有所不同,但是,如果您仍然想使用它,可以尝试将其与自组织图结合起来,如“自组织图在强化学习中的应用”中所做的那样。本文还包含一些可能会有用的其他参考。

收藏
评论

对于您正在做的事情,我认为您不需要在连续的动作空间中工作。尽管物理鼠标在连续的空间中移动,但内部的光标仅以离散的步长移动(通常以像素级别移动),因此,使精度高于此阈值似乎对您的代理性能没有任何影响。状态空间仍然很大,但是它是有限且离散的。

收藏
评论
新手导航
  • 社区规范
  • 提出问题
  • 进行投票
  • 个人资料
  • 优化问题
  • 回答问题

关于我们

常见问题

内容许可

联系我们

@2020 AskGo
京ICP备20001863号