課程網(wǎng)址:https://www.xuetangx.com/course/fdu0809bt2074/26291019?channel=i.area.manual_search
課程介紹
課程從強(qiáng)化學(xué)習(xí)的基本概念談起,介紹了重要的Bellman方程。然后介紹經(jīng)典的時(shí)序差分、SARSA、Q-Learning、深度Q網(wǎng)絡(luò)、Double DQN、Actor-critic、Policy Gradient、A2C以及A3C、TRPO、PPO等常用的深度強(qiáng)化學(xué)習(xí)算法。此外,還通過典型的案例分析,以及騰訊開悟平臺(tái)對(duì)上述算法進(jìn)行實(shí)驗(yàn),方便理解,動(dòng)手實(shí)踐。