【PPO × Family】第五課:探索時序建模

課代表(自封)我又來啦!感覺第五節(jié)課聽下來有點難度,依舊是整理了老師提到的一些鏈接,對照著學習感覺好多了~

01: 55 對于 POMDP(部分可觀測馬爾可夫決策概述)更詳細的定義和解釋,大家可以參考論文:
https://www.nature.com/articles/s41598-022-08810-z
03: 38 關(guān)于更多 POMDP 在真實決策中的應用,可以搭配 Link:
https://arxiv.org/pdf/2209.10342.pdf
04: 37 想要了解更詳細的 POMDP 的定義,大家可以參考:
https://en.wikipedia.org/wiki/Partially_observable_Markov_decision_process
05: 12 關(guān)于如何解決 Pong 這款游戲中 POMDP 問題的詳細解釋,大家可以參考論文:
https://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf
05: 59 對于 BipedalWalker 的具體介紹和教學,可以在 DI-engine 中找到:
https://di-engine-docs.readthedocs.io/zh_CN/latest/13_envs/bipedalwalker_zh.html
07: 33 如何設(shè)計出好的神經(jīng)網(wǎng)絡(luò),從而減小 POMDP 問題的具體案例分析可參考論文:
- PerfectDou:https://arxiv.org/pdf/2203.16406.pdf
- PERCEIVER IO:https://arxiv.org/pdf/2107.14795.pdf
09: 20 課程作業(yè)一的詳細題解大家可以通過以下 Link 查詢:
https://github.com/opendilab/PPOxFamily/blob/main/chapter1_overview/chapter1_homework_solution.pdf
10: 46 具體關(guān)于 N-step 和 MCTS 這兩種方法如何促進解決 POMDP 問題的分析,大家可以參考論文:
https://papers.nips.cc/paper/2010/file/edfbe1afcf9246bb0d40eb4d8027d90f-Paper.pdf
10: 57 關(guān)于 POMDP 中的一些特殊概念,例如 Belief MDP,有興趣的同學可以通過補充材料進行參考:
https://github.com/opendilab/PPOxFamily/blob/main/chapter5_time/chapter5_supp_belief.pdf
11: 35 關(guān)于 RNN 的變體 -- LSTM 和 GRU 的詳細介紹,想要了解的同學可以參考:
https://towardsdatascience.com/illustrated-guide-to-lstms-and-gru-s-a-step-by-step-explanation-44e9eb85bf21
13: 45 R2D2 的具體方法介紹可以參考:
https://openreview.net/pdf?id=r1lyTjAqYX
15: 43 DeepMind Lab 的相關(guān)材料以及詳細解釋,搭配 Link:
https://github.com/deepmind/lab
19: 01 關(guān)于 BPTT 更詳細的解釋和分析,大家可以參考以下 Link:
https://en.wikipedia.org/wiki/Backpropagation_through_time
https://www.researchgate.net/publication/316684826_Deep_Learning_Methods_for_the_Extraction_of_Relations_in_Natural_Language_Text/figures?lo=1
19: 27 PPO + LSTM 相結(jié)合的算法代碼完整示例,大家可以在他們的GitHub中找到:
https://opendilab.github.io/PPOxFamily/
22: 35 想要更詳細了解 LSTM + Initialization 可搭配 Link:
https://smerity.com/articles/2016/orthogonal_init.html
23: 39 有關(guān)于 Transformer 架構(gòu)的一些細節(jié),想要了解的同學可以參考以下 Link:
https://lena-voita.github.io/nlp_course/seq2seq_and_attention.html#transformer_intro
24: 43 對于 Transformer + RL 的詳細劣勢分析,大家可以在以下 Link 尋找:
https://zhuanlan.zhihu.com/p/559370131
26: 12 關(guān)于 Transformer + RL 的詳細優(yōu)勢分析,大家可以參考論文 Transformer - XL:
https://arxiv.org/pdf/1901.02860.pdf
27: 31 有關(guān)于在強化學習中運用 Transformer 的例子 -- GTrXL 的詳細講解,對比試驗以及細節(jié)分析,可以參考論文:
https://arxiv.org/pdf/1910.06764.pdf
30: 46 PPO + LSTM 相結(jié)合的算法代碼完整示例和對應的講解,大家可以在他們的GitHub中找到:
https://opendilab.github.io/PPOxFamily/
31: 45 對于 Bsuite系列環(huán)境中的子環(huán)境之一 -- Memory Len 的具體介紹和教學,可以在 DI-engine 中找到:
https://di-engine-docs.readthedocs.io/zh_CN/latest/13_envs/bsuite_zh.html
33: 24 PPO + LSTM 和 PPO + Transformer 的環(huán)境進一步的詳細講解和視頻demo,大家可以在他們的GitHub倉庫中找到:
https://github.com/opendilab/PPOxFamily/issues/48
34: 50 對其他不同的,新提出的一些時序建模模塊感興趣的同學,可以參考提供的補充材料:
RWKV - LM:https://github.com/opendilab/PPOxFamily/blob/main/chapter5_time/chapter5_supp_rwkv.pdf