五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

世界冠軍帶你從零實踐強化學(xué)習(xí)

2022-12-12 14:27 作者:天國12345  | 我要投稿

?
Lesson1-3-GYM實戰(zhàn)、PARL介紹、總結(jié)、環(huán)境安裝 P3 - 01:11
?

import gym

from gridworld import CliffWalkingWapper

env=gym.make("CliffWalking-v0")

env=ClifWalkingWapper(env)

env.reset() //重置環(huán)境

env.render() //渲染環(huán)境

env.step(0) //輸入動作











環(huán)境安裝:



上圖中 P為狀態(tài)轉(zhuǎn)移概率

model free 表示的下一個狀態(tài)是未知的
















Sarsa算法:



?
Lesson2-3-Sarsa算法介紹與代碼解析 P6 - 04:06
?

:動作選擇實現(xiàn),探索和利用隨機進行


總代碼如下:

obs_n: 為狀態(tài)的維度,有多少個狀態(tài)就有多少個維度

act_n: 動作維度





Q-Learning:









?
Lesson3-2-DQN算法解析 P10 - 01:33
?

DQN:


經(jīng)驗回訪策略:



Behavior policy:使用Q表格選擇行動,并將每個狀態(tài)的動作,回報保存在緩沖區(qū)中,

Target policy:利用這些緩沖區(qū)中的數(shù)據(jù)對Q表格進行更新

緩沖區(qū)的實現(xiàn)方式:



固定Q目標(biāo):意思就是固定一段時間Q的表格,讓Q_target為固定的值




DQN代碼解析:

























?
Lesson5-3-四軸飛行器與創(chuàng)意賽 P20 - 03:22
?




世界冠軍帶你從零實踐強化學(xué)習(xí)的評論 (共 條)

分享到微博請遵守國家法律
呼玛县| 浑源县| 宁都县| 东海县| 三门县| 沙田区| 施秉县| 屏山县| 保康县| 兖州市| 宁陕县| 贡嘎县| 那坡县| 招远市| 铜梁县| 宁都县| 墨脱县| 淅川县| 南城县| 大新县| 霍山县| 怀远县| 太和县| 九江市| 平江县| 云龙县| 德化县| 塔河县| 岳阳市| 保德县| 五指山市| 丹阳市| 南宁市| 丹东市| 丹巴县| 七台河市| 天长市| 泗阳县| 阿拉尔市| 芜湖县| 浦江县|