增強學習小白?本文帶你入門了解增強學習
更多深度文章,請關注:https://yq.aliyun.com/cloud
AI
RL
“智能”。
agent
Q Learning Deep Q Learning
Q Learning通常執行給予最大回報的操作。詳細的數學可以在這裏找到
agentQQagentQ
Deep Q Learning
Deep Q LearningQQ
Deep Q Learning
https://www.google.com/patents/US20150100530
vs
通常情況下,agent記錄一條路徑,永遠不會嚐試探索任何其他路徑。 一般來說,我們希望一個agent不僅可以利用良好的路徑,而且有時會探索可以執行操作的新路徑。因此,一個名為ε的超參數用於指導探索新路徑的多少和如何利用舊路徑。
這就是Deep Q Learning的整體框架。 注意,這代表了打折的回報。這是一個超參數,可以控製未來回報的重量。符號’表示下一個。 例如 s'表示下一個狀態。
1.Deep Q Learning Robert Aguilera
增強學習能很好地處理許多事情(如AlphaGo),但是在反饋稀疏的地方通常會失敗。 agent不會長期探索實際有益的行為。 有時,為了自身的緣故(內在動機)而不是直接嚐試解決問題,需要采取一些行動。
這樣做可以讓agent執行複雜的操作,基本上允許agent計劃事情。分層學習允許這種抽象學習。
2.Deep Q Learning
在這種設置中,有兩個Q網絡。它們被表示為控製器和元控製器。 元控製器查看原始狀態並計算要遵循的“目標”。 控製器與目標一起進入狀態,並輸出策略來解決目標。檢查是否達成目標,並向控製器給予回報。 當片段結束或達到目標時,控製器停止。 然後,元控製器選擇一個新目標,並重複這個目標。
“目標”是最終幫助 agent獲得最終回報的東西。這更好,因為它有可能Q Learning接著Q Learning以一個分層的方式。
1.Deep Q Learning基礎。對理解強化學習的數學和過程很有幫助。
2.分層學習論文,對於那些想詳細了解分層學習的人。
3.作者解說分層學習論文的視頻。(需翻牆)
4.深度RL:概述。我認為是增強學習手冊。它涵蓋了理解當前研究水平所需要的RL的幾乎每個方麵。它深入探討數學,而且還提供了高層次的概述。
3.
Robert Aguilera
本文由北郵@愛可可-愛生活老師推薦,阿裏雲雲棲社區組織翻譯。
文章原標題《5 Ways to Get Started with Reinforcement Learning》
作者:Harshvardhan Gupta 審閱:海棠
最後更新:2017-09-09 23:32:31
上一篇:
再談Android客戶端進程保活
下一篇:
2017上半年無監督特征學習研究成果匯總
Spring中編寫配置文件之幫助提示
幾種常見的微服務架構方案——ZeroC IceGrid、Spring Cloud、基於消息隊列、Docker Swarm
《TensorFlow技術解析與實戰》——第2章 TensorFlow環境的準備 2.2基於pip的安裝
String、StringBuffer、StringBuilder的區別
阿裏雲SDN、NFV技術揭秘
mac os 下安裝hadoop-2.7.3+hive-2.1.1+sqoop-1.99.3
IBM基於Kubernetes的容器雲全解析
深度剖析–德家7mall模式
JS HTML DOM
《循序漸進學Spark 》Spark架構與集群環境