阅读528 返回首页    go 阿里云 go 技术社区[云栖]


增强学习小白?本文带你入门了解增强学习

更多深度文章,请关注:https://yq.aliyun.com/cloud


AI

RL

“智能”。

agent

Q Learning Deep Q Learning

Q Learning通常执行给予最大回报的操作。详细的数学可以在这里找到

agentQQagentQ

Deep Q Learning

Deep Q LearningQQ

 

Deep Q Learning

https://www.google.com/patents/US20150100530

 

vs

通常情况下,agent记录一条路径,永远不会尝试探索任何其他路径。 一般来说,我们希望一个agent不仅可以利用良好的路径,而且有时会探索可以执行操作的新路径。因此,一个名为ε的超参数用于指导探索新路径的多少和如何利用旧路径。

这就是Deep Q Learning的整体框架。 注意,这代表了打折的回报。这是一个超参数,可以控制未来回报的重量。符号表示下一个。 例如 s'表示下一个状态。

e3dd9393ba9b89360bc2209de0f72e4f40a781fc

1.Deep Q Learning Robert Aguilera

增强学习能很好地处理许多事情(如AlphaGo),但是在反馈稀疏的地方通常会失败。 agent不会长期探索实际有益的行为。 有时,为了自身的缘故(内在动机)而不是直接尝试解决问题,需要采取一些行动。

这样做可以让agent执行复杂的操作,基本上允许agent计划事情。分层学习允许这种抽象学习。

870fcb639c515c6071cd7c48a2f316b959638e08

2.Deep Q Learning

在这种设置中,有两个Q网络。它们被表示为控制器和元控制器。 元控制器查看原始状态并计算要遵循的“目标”。 控制器与目标一起进入状态,并输出策略来解决目标。检查是否达成目标,并向控制器给予回报。 当片段结束或达到目标时,控制器停止。 然后,元控制器选择一个新目标,并重复这个目标。

“目标”是最终帮助 agent获得最终回报的东西。这更好,因为它有可能Q Learning接着Q Learning一个分层的方式。

1.Deep Q Learning基础对理解强化学习的数学和过程很有帮助。

2.分层学习论文,对于那些想详细了解分层学习的人。

3.作者解说分层学习论文的视频。(需翻墙)

4.深度RL:概述。我认为是增强学习手册。它涵盖了理解当前研究水平所需要的RL的几乎每个方面。它深入探讨数学,而且还提供了高层次的概述。

5.用一个python脚本来实现深层次的学习

90e898fdb5e25d6a800b7687361137edcb66bfd6

3.


Robert Aguilera


本文由北邮@爱可可-爱生活老师推荐,阿里云云栖社区组织翻译。

文章原标题《5 Ways to Get Started with Reinforcement Learning

作者:Harshvardhan Gupta 审阅:海棠

文章为简译,更为详细的内容,请查看原文  附件为原文PDF

最后更新:2017-09-09 23:32:31

  上一篇:go  再谈Android客户端进程保活
  下一篇:go  2017上半年无监督特征学习研究成果汇总