手機站首頁散文詩歌雜文隨筆日記小小說

散文網(wǎng) » 筆記 »全部筆記 » 【PPO × Family】第五課：探索時序建模

【PPO × Family】第五課：探索時序建模

2023-03-20 09:53 作者:臉紅不及向日葵 0人讀過 | 我要投稿

課代表（自封）我又來啦！感覺第五節(jié)課聽下來有點難度，依舊是整理了老師提到的一些鏈接，對照著學習感覺好多了~

01: 55 對于 POMDP（部分可觀測馬爾可夫決策概述）更詳細的定義和解釋，大家可以參考論文：

https://www.nature.com/articles/s41598-022-08810-z

03: 38 關(guān)于更多 POMDP 在真實決策中的應用，可以搭配 Link：

https://arxiv.org/pdf/2209.10342.pdf

04: 37 想要了解更詳細的 POMDP 的定義，大家可以參考：

https://en.wikipedia.org/wiki/Partially_observable_Markov_decision_process

05: 12 關(guān)于如何解決 Pong 這款游戲中 POMDP 問題的詳細解釋，大家可以參考論文：

https://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf

05: 59 對于 BipedalWalker 的具體介紹和教學，可以在 DI-engine 中找到：

https://di-engine-docs.readthedocs.io/zh_CN/latest/13_envs/bipedalwalker_zh.html

07: 33 如何設(shè)計出好的神經(jīng)網(wǎng)絡(luò)，從而減小 POMDP 問題的具體案例分析可參考論文：

- PerfectDou：https://arxiv.org/pdf/2203.16406.pdf

- PERCEIVER IO：https://arxiv.org/pdf/2107.14795.pdf

09: 20 課程作業(yè)一的詳細題解大家可以通過以下 Link 查詢：

https://github.com/opendilab/PPOxFamily/blob/main/chapter1_overview/chapter1_homework_solution.pdf

10: 46 具體關(guān)于 N-step 和 MCTS 這兩種方法如何促進解決 POMDP 問題的分析，大家可以參考論文：

https://papers.nips.cc/paper/2010/file/edfbe1afcf9246bb0d40eb4d8027d90f-Paper.pdf

10: 57 關(guān)于 POMDP 中的一些特殊概念，例如 Belief MDP，有興趣的同學可以通過補充材料進行參考：

https://github.com/opendilab/PPOxFamily/blob/main/chapter5_time/chapter5_supp_belief.pdf

11: 35 關(guān)于 RNN 的變體 -- LSTM 和 GRU 的詳細介紹，想要了解的同學可以參考：

https://towardsdatascience.com/illustrated-guide-to-lstms-and-gru-s-a-step-by-step-explanation-44e9eb85bf21

13: 45 R2D2 的具體方法介紹可以參考：

https://openreview.net/pdf?id=r1lyTjAqYX

15: 43 DeepMind Lab 的相關(guān)材料以及詳細解釋，搭配 Link：

https://github.com/deepmind/lab

19: 01 關(guān)于 BPTT 更詳細的解釋和分析，大家可以參考以下 Link：

https://en.wikipedia.org/wiki/Backpropagation_through_time

https://www.researchgate.net/publication/316684826_Deep_Learning_Methods_for_the_Extraction_of_Relations_in_Natural_Language_Text/figures?lo=1

19: 27 PPO + LSTM 相結(jié)合的算法代碼完整示例，大家可以在他們的GitHub中找到：

https://opendilab.github.io/PPOxFamily/

22: 35 想要更詳細了解 LSTM + Initialization 可搭配 Link：

https://smerity.com/articles/2016/orthogonal_init.html

23: 39 有關(guān)于 Transformer 架構(gòu)的一些細節(jié)，想要了解的同學可以參考以下 Link：

https://lena-voita.github.io/nlp_course/seq2seq_and_attention.html#transformer_intro

24: 43 對于 Transformer + RL 的詳細劣勢分析，大家可以在以下 Link 尋找：

https://zhuanlan.zhihu.com/p/559370131

26: 12 關(guān)于 Transformer + RL 的詳細優(yōu)勢分析，大家可以參考論文 Transformer - XL：

https://arxiv.org/pdf/1901.02860.pdf

27: 31 有關(guān)于在強化學習中運用 Transformer 的例子 -- GTrXL 的詳細講解，對比試驗以及細節(jié)分析，可以參考論文：

https://arxiv.org/pdf/1910.06764.pdf

30: 46 PPO + LSTM 相結(jié)合的算法代碼完整示例和對應的講解，大家可以在他們的GitHub中找到：

https://opendilab.github.io/PPOxFamily/

31: 45 對于 Bsuite系列環(huán)境中的子環(huán)境之一 -- Memory Len 的具體介紹和教學，可以在 DI-engine 中找到：

https://di-engine-docs.readthedocs.io/zh_CN/latest/13_envs/bsuite_zh.html

33: 24 PPO + LSTM 和 PPO + Transformer 的環(huán)境進一步的詳細講解和視頻demo，大家可以在他們的GitHub倉庫中找到：

https://github.com/opendilab/PPOxFamily/issues/48

34: 50 對其他不同的，新提出的一些時序建模模塊感興趣的同學，可以參考提供的補充材料：

RWKV - LM：https://github.com/opendilab/PPOxFamily/blob/main/chapter5_time/chapter5_supp_rwkv.pdf

標簽：

【PPO × Family】第五課：探索時序建模的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

【PPO × Family】第五課：探索時序建模

【PPO × Family】第五課：探索時序建模的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

【PPO × Family】第五課：探索時序建模

本文作者的其他文章

【PPO × Family】第五課：探索時序建模的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

【PPO × Family】第五課：探索時序建模的評論 (共條)