上一篇說明了 Reinforcement Learning (簡稱 RL) 的目標,以及 RL 通常會假設問題符合 Markov Decision Process (簡稱 MDP) 的特性,這篇則說明如何在 MDP 的假設下找出最佳的 policy。
Posts for tag 'reinforcement learning'
最近因為在探討新的研究方向,所以開始踏入了 Reinforcement Learning (以下簡稱 RL) 的領域。 這篇文章記錄了我學習 RL 的過程與理解,以供需要其他打算學習 RL 的人參考。