小象學(xué)院 強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)方法
1、Model-free 和 Model-based
如果不理解環(huán)境,環(huán)境給了什么就是什么,我們就把這種方法叫做 Model-free,這里的 Model 就是用模型來表示環(huán)境,理解環(huán)境就是學(xué)會了用一個模型來代表環(huán)境,所以這種就是 Model-based 方法。
Model-free 的方法有很多, 像 Q learning、Sarsa、Policy Gradients 都是從環(huán)境中得到反饋然后從中學(xué)習(xí)。而 Model-based RL 只是多了一道程序,為真實(shí)世界建模,也可以說他們都是 Model-free 的強(qiáng)化學(xué)習(xí), 只是 Model-based 多出了一個虛擬環(huán)境,我們可以先在虛擬環(huán)境中嘗試,如果沒問題,再拿到現(xiàn)實(shí)環(huán)境中來。最終 Model-based 還有一個殺手锏,是 Model-free 所不具備的,那就是想象力.
標(biāo)簽: