Posts for tag 'value iteration'

Reinforcement Learning 筆記 (2) - Value Iteration & Policy Iteration

上一篇說明了 Reinforcement Learning (簡稱 RL) 的目標,以及 RL 通常會假設問題符合 Markov Decision Process (簡稱 MDP) 的特性,這篇則說明如何在 MDP 的假設下找出最佳的 policy。

Read More