上一篇說明了 Reinforcement Learning (簡稱 RL) 的目標,以及 RL 通常會假設問題符合 Markov Decision Process (簡稱 MDP) 的特性,這篇則說明如何在 MDP 的假設下找出最佳的 policy。
Posts for tag 'note'
最近因為在探討新的研究方向,所以開始踏入了 Reinforcement Learning (以下簡稱 RL) 的領域。 這篇文章記錄了我學習 RL 的過程與理解,以供需要其他打算學習 RL 的人參考。
最近打算開始好好來鑽研一下駭客的技術。雖然我一直對這塊抱持著很高的興趣,但是一直沒有好好研究這方面的知識。之前有稍微打打看一些簡單的 CTF,不過一直遭遇各種挫折XD 後來因為開始忙著要弄研究方面的東西,所以這件事就被我擱置了。最近去了美國一趟,在當地的書店發現了「Hacking - The Art of Exploitation」這本書。稍微翻一下之後覺得不錯,所以這次回來之後就要來好好看看。