
資料內(nèi)容:
4.5 深度強化學習(DRL)
強化學習 (Reinforcement learning,RL)強調(diào)如何基于環(huán)境而行動,以取得最大化的預期利益。結(jié)合了深
度學習技術(shù)后的強化學習更是如虎添翼。這兩年廣為人知的 AlphaGo 即是深度強化學習的典型應(yīng)用。深度
強化學習的基礎(chǔ)知識可參考:
• Demystifying Deep Reinforcement Learning (中文編譯)
• [Mnih2013]
這里,我們使用深度強化學習玩 CartPole(平衡桿)游戲。簡單說,我們需要讓模型控制桿的左右運動,以
讓其一直保持豎直平衡狀態(tài)。