增强学习小白?本文带你入门了解增强学习
更多深度文章,请关注:https://yq.aliyun.com/cloud
AI
RL
“智能”。
agent
Q Learning Deep Q Learning
Q Learning通常执行给予最大回报的操作。详细的数学可以在这里找到
agentQQagentQ
Deep Q Learning
Deep Q LearningQQ
Deep Q Learning
https://www.google.com/patents/US20150100530
vs
通常情况下,agent记录一条路径,永远不会尝试探索任何其他路径。 一般来说,我们希望一个agent不仅可以利用良好的路径,而且有时会探索可以执行操作的新路径。因此,一个名为ε的超参数用于指导探索新路径的多少和如何利用旧路径。
这就是Deep Q Learning的整体框架。 注意,这代表了打折的回报。这是一个超参数,可以控制未来回报的重量。符号’表示下一个。 例如 s'表示下一个状态。
1.Deep Q Learning Robert Aguilera
增强学习能很好地处理许多事情(如AlphaGo),但是在反馈稀疏的地方通常会失败。 agent不会长期探索实际有益的行为。 有时,为了自身的缘故(内在动机)而不是直接尝试解决问题,需要采取一些行动。
这样做可以让agent执行复杂的操作,基本上允许agent计划事情。分层学习允许这种抽象学习。
2.Deep Q Learning
在这种设置中,有两个Q网络。它们被表示为控制器和元控制器。 元控制器查看原始状态并计算要遵循的“目标”。 控制器与目标一起进入状态,并输出策略来解决目标。检查是否达成目标,并向控制器给予回报。 当片段结束或达到目标时,控制器停止。 然后,元控制器选择一个新目标,并重复这个目标。
“目标”是最终帮助 agent获得最终回报的东西。这更好,因为它有可能Q Learning接着Q Learning以一个分层的方式。
1.Deep Q Learning基础。对理解强化学习的数学和过程很有帮助。
2.分层学习论文,对于那些想详细了解分层学习的人。
3.作者解说分层学习论文的视频。(需翻墙)
4.深度RL:概述。我认为是增强学习手册。它涵盖了理解当前研究水平所需要的RL的几乎每个方面。它深入探讨数学,而且还提供了高层次的概述。
3.
Robert Aguilera
本文由北邮@爱可可-爱生活老师推荐,阿里云云栖社区组织翻译。
文章原标题《5 Ways to Get Started with Reinforcement Learning》
作者:Harshvardhan Gupta 审阅:海棠
最后更新:2017-09-09 23:32:31
上一篇:
再谈Android客户端进程保活
下一篇:
2017上半年无监督特征学习研究成果汇总
Spring中编写配置文件之帮助提示
几种常见的微服务架构方案——ZeroC IceGrid、Spring Cloud、基于消息队列、Docker Swarm
《TensorFlow技术解析与实战》——第2章 TensorFlow环境的准备 2.2基于pip的安装
String、StringBuffer、StringBuilder的区别
阿里云SDN、NFV技术揭秘
mac os 下安装hadoop-2.7.3+hive-2.1.1+sqoop-1.99.3
IBM基于Kubernetes的容器云全解析
深度剖析–德家7mall模式
JS HTML DOM
《循序渐进学Spark 》Spark架构与集群环境