閱讀528 返回首頁    go 阿裏雲 go 技術社區[雲棲]


增強學習小白?本文帶你入門了解增強學習

更多深度文章,請關注:https://yq.aliyun.com/cloud


AI

RL

“智能”。

agent

Q Learning Deep Q Learning

Q Learning通常執行給予最大回報的操作。詳細的數學可以在這裏找到

agentQQagentQ

Deep Q Learning

Deep Q LearningQQ

 

Deep Q Learning

https://www.google.com/patents/US20150100530

 

vs

通常情況下,agent記錄一條路徑,永遠不會嚐試探索任何其他路徑。 一般來說,我們希望一個agent不僅可以利用良好的路徑,而且有時會探索可以執行操作的新路徑。因此,一個名為ε的超參數用於指導探索新路徑的多少和如何利用舊路徑。

這就是Deep Q Learning的整體框架。 注意,這代表了打折的回報。這是一個超參數,可以控製未來回報的重量。符號表示下一個。 例如 s'表示下一個狀態。

e3dd9393ba9b89360bc2209de0f72e4f40a781fc

1.Deep Q Learning Robert Aguilera

增強學習能很好地處理許多事情(如AlphaGo),但是在反饋稀疏的地方通常會失敗。 agent不會長期探索實際有益的行為。 有時,為了自身的緣故(內在動機)而不是直接嚐試解決問題,需要采取一些行動。

這樣做可以讓agent執行複雜的操作,基本上允許agent計劃事情。分層學習允許這種抽象學習。

870fcb639c515c6071cd7c48a2f316b959638e08

2.Deep Q Learning

在這種設置中,有兩個Q網絡。它們被表示為控製器和元控製器。 元控製器查看原始狀態並計算要遵循的“目標”。 控製器與目標一起進入狀態,並輸出策略來解決目標。檢查是否達成目標,並向控製器給予回報。 當片段結束或達到目標時,控製器停止。 然後,元控製器選擇一個新目標,並重複這個目標。

“目標”是最終幫助 agent獲得最終回報的東西。這更好,因為它有可能Q Learning接著Q Learning一個分層的方式。

1.Deep Q Learning基礎對理解強化學習的數學和過程很有幫助。

2.分層學習論文,對於那些想詳細了解分層學習的人。

3.作者解說分層學習論文的視頻。(需翻牆)

4.深度RL:概述。我認為是增強學習手冊。它涵蓋了理解當前研究水平所需要的RL的幾乎每個方麵。它深入探討數學,而且還提供了高層次的概述。

5.用一個python腳本來實現深層次的學習

90e898fdb5e25d6a800b7687361137edcb66bfd6

3.


Robert Aguilera


本文由北郵@愛可可-愛生活老師推薦,阿裏雲雲棲社區組織翻譯。

文章原標題《5 Ways to Get Started with Reinforcement Learning

作者:Harshvardhan Gupta 審閱:海棠

文章為簡譯,更為詳細的內容,請查看原文  附件為原文PDF

最後更新:2017-09-09 23:32:31

  上一篇:go  再談Android客戶端進程保活
  下一篇:go  2017上半年無監督特征學習研究成果匯總