五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

【PPO × Family】第五課:探索時序建模

2023-03-20 09:53 作者:臉紅不及向日葵  | 我要投稿

課代表(自封)我又來啦!感覺第五節(jié)課聽下來有點難度,依舊是整理了老師提到的一些鏈接,對照著學習感覺好多了~


01: 55 對于 POMDP(部分可觀測馬爾可夫決策概述)更詳細的定義和解釋,大家可以參考論文:

https://www.nature.com/articles/s41598-022-08810-z

03: 38 關(guān)于更多 POMDP 在真實決策中的應用,可以搭配 Link:

https://arxiv.org/pdf/2209.10342.pdf

04: 37 想要了解更詳細的 POMDP 的定義,大家可以參考:

https://en.wikipedia.org/wiki/Partially_observable_Markov_decision_process

05: 12 關(guān)于如何解決 Pong 這款游戲中 POMDP 問題的詳細解釋,大家可以參考論文:

https://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf

05: 59 對于 BipedalWalker 的具體介紹和教學,可以在 DI-engine 中找到:

https://di-engine-docs.readthedocs.io/zh_CN/latest/13_envs/bipedalwalker_zh.html

07: 33 如何設(shè)計出好的神經(jīng)網(wǎng)絡(luò),從而減小 POMDP 問題的具體案例分析可參考論文:

- PerfectDou:https://arxiv.org/pdf/2203.16406.pdf

- PERCEIVER IO:https://arxiv.org/pdf/2107.14795.pdf

09: 20 課程作業(yè)一的詳細題解大家可以通過以下 Link 查詢:

https://github.com/opendilab/PPOxFamily/blob/main/chapter1_overview/chapter1_homework_solution.pdf

10: 46 具體關(guān)于 N-step 和 MCTS 這兩種方法如何促進解決 POMDP 問題的分析,大家可以參考論文:

https://papers.nips.cc/paper/2010/file/edfbe1afcf9246bb0d40eb4d8027d90f-Paper.pdf

10: 57 關(guān)于 POMDP 中的一些特殊概念,例如 Belief MDP,有興趣的同學可以通過補充材料進行參考:

https://github.com/opendilab/PPOxFamily/blob/main/chapter5_time/chapter5_supp_belief.pdf

11: 35 關(guān)于 RNN 的變體 -- LSTM 和 GRU 的詳細介紹,想要了解的同學可以參考:

https://towardsdatascience.com/illustrated-guide-to-lstms-and-gru-s-a-step-by-step-explanation-44e9eb85bf21

13: 45 R2D2 的具體方法介紹可以參考:

https://openreview.net/pdf?id=r1lyTjAqYX

15: 43 DeepMind Lab 的相關(guān)材料以及詳細解釋,搭配 Link:

https://github.com/deepmind/lab

19: 01 關(guān)于 BPTT 更詳細的解釋和分析,大家可以參考以下 Link:

https://en.wikipedia.org/wiki/Backpropagation_through_time

https://www.researchgate.net/publication/316684826_Deep_Learning_Methods_for_the_Extraction_of_Relations_in_Natural_Language_Text/figures?lo=1

19: 27 PPO + LSTM 相結(jié)合的算法代碼完整示例,大家可以在他們的GitHub中找到:

https://opendilab.github.io/PPOxFamily/

22: 35 想要更詳細了解 LSTM + Initialization 可搭配 Link:

https://smerity.com/articles/2016/orthogonal_init.html

23: 39 有關(guān)于 Transformer 架構(gòu)的一些細節(jié),想要了解的同學可以參考以下 Link:

https://lena-voita.github.io/nlp_course/seq2seq_and_attention.html#transformer_intro

24: 43 對于 Transformer + RL 的詳細劣勢分析,大家可以在以下 Link 尋找:

https://zhuanlan.zhihu.com/p/559370131

26: 12 關(guān)于 Transformer + RL 的詳細優(yōu)勢分析,大家可以參考論文 Transformer - XL:

https://arxiv.org/pdf/1901.02860.pdf

27: 31 有關(guān)于在強化學習中運用 Transformer 的例子 -- GTrXL 的詳細講解,對比試驗以及細節(jié)分析,可以參考論文:

https://arxiv.org/pdf/1910.06764.pdf

30: 46 PPO + LSTM 相結(jié)合的算法代碼完整示例和對應的講解,大家可以在他們的GitHub中找到:

https://opendilab.github.io/PPOxFamily/

31: 45 對于 Bsuite系列環(huán)境中的子環(huán)境之一 -- Memory Len 的具體介紹和教學,可以在 DI-engine 中找到:

https://di-engine-docs.readthedocs.io/zh_CN/latest/13_envs/bsuite_zh.html

33: 24 PPO + LSTM 和 PPO + Transformer 的環(huán)境進一步的詳細講解和視頻demo,大家可以在他們的GitHub倉庫中找到:

https://github.com/opendilab/PPOxFamily/issues/48

34: 50 對其他不同的,新提出的一些時序建模模塊感興趣的同學,可以參考提供的補充材料:

RWKV - LM:https://github.com/opendilab/PPOxFamily/blob/main/chapter5_time/chapter5_supp_rwkv.pdf

【PPO × Family】第五課:探索時序建模的評論 (共 條)

分享到微博請遵守國家法律
武宣县| 水城县| 龙游县| 康保县| 齐齐哈尔市| 浑源县| 沂南县| 彭山县| 苏州市| 东兰县| 新和县| 邮箱| 鹿邑县| 安丘市| 三原县| 武川县| 蓝田县| 土默特左旗| 塔河县| 嫩江县| 西峡县| 石城县| 佛冈县| 德钦县| 黑龙江省| 兰西县| 呼图壁县| 肇东市| 康平县| 孟津县| 电白县| 华亭县| 务川| 沙湾县| 丰县| 阳城县| 南雄市| 韶关市| 乐清市| 成武县| 佛山市|