五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

Science:挑戰(zhàn)傳統(tǒng)理論,重塑聯(lián)想學習概念

2022-12-19 19:03 作者:brainnews--杏仁核學堂  | 我要投稿

學會根據(jù)環(huán)境線索預測獎賞對生存至關重要。人們認為,動物通過在結果偏離預期時更新預測來學習預測獎賞,而這種獎賞預測錯誤(RPEs)是由學習的關鍵控制者中腦邊緣多巴胺系統(tǒng)發(fā)出的信號。然而,動物還可以通過學習獎勵的回溯原因來推斷預測,而不是從RPEs中學習前瞻性預測。


簡單的說,如果動物知道它剛剛收到的刺激是有意義的(例如,獎勵),它可以回顧記憶來推斷其原因。鑒于多巴胺在學習中的中心作用,多巴胺可能會引導回溯性因果學習,而不是傳遞RPE。




近日,美國加利福尼亞大學神經(jīng)病學系Vijay Mohan K Namboodiri助理教授研究團隊在Science上發(fā)表研究,開發(fā)了一種用于回顧性因果學習的算法,發(fā)現(xiàn)中邊緣多巴胺的釋放傳遞了因果關聯(lián),而不是RPE,從而挑戰(zhàn)了獎賞學習中的主導理論。重塑了聯(lián)想學習的概念和生物學框架。





回顧性因果學習算法


學習前瞻性預測的一個簡單方法是,每當提示后的結果偏離預測時,更新預測[Fig.1A,B]。這種違反獎賞預測的行為通常被稱為獎賞預測錯誤(RPEs)。時間差強化學習(TDRL)模型擴展了Rescorla Wagner模型,以解釋線索結果延遲,是最廣泛接受的獎勵學習模型。


TDRL RPE已成為多巴胺作為行為學習關鍵調(diào)節(jié)器的主導理論。研究人員提出了一種因果推斷算法,該算法通過測量線索是否比偶然預期更先于獎賞,從而來推斷線索是否是獎勵的原因[Fig.1C]。



Figure 1 一種揭示環(huán)境中因果關聯(lián)的算法



未預測獎賞測試


本研究算法提出,有意義的因果目標通過調(diào)整后的因果關系凈偶然性(ANCCR)來發(fā)出信號。因此,RPE假說預測多巴胺對蔗糖的反應會隨著重復經(jīng)歷而減少,而ANCCR假說則預測反應會增加。


結果觀察到的中腦邊緣多巴胺釋放與ANCCR一致,但與RPE不一致[Fig.2D,E]。每只動物都表現(xiàn)出增加的蔗糖反應,達到高陽性漸近線。這與RPE完全不一致:因為RPE是收到的和預測的獎勵之間的差異,它不能高于未預測的獎勵。



Figure 2 多巴胺對非預期回報的反應動力學與ANCCR一致,但與TDRL RPE不一致



線索獎勵學習測試


在線索獎勵學習過程中,RPE和ANCCR都預測多巴胺對線索的反應在學習早期會很低,而在學習后期會很高。結果發(fā)現(xiàn)學習期間觀察到的多巴胺能動力學與ANCCR一致,但與RPE不一致:早在動物表現(xiàn)出預期舔之前,多巴胺對CS+的反應就很明顯[Fig.3A,B]。


接下來測試了學習線索獎勵關聯(lián)的消失。學習聯(lián)想的消失不會導致原始聯(lián)想的消失。TDRL在消散后學習到零線索值,從而預測多巴胺能線索反應將隨著行為學習而減少到零。而ANCCR與RPE所預測的不同,在動物停止對線索的行為反應后,多巴胺線索反應仍然顯著積極[Fig.3J-L]。



Figure 3 線索獎賞學習期間多巴胺反應的動力學與ANCCR一致,但與TDRL RPE不一致



測試中的反向傳播


TDRL RPE的一個關鍵假設是多巴胺反應驅(qū)動前一狀態(tài)的價值學習。研究人員測試了這一中心假設的三個預測。第一個是,在獲得微量條件反射的過程中,多巴胺的反應從獎勵前一刻開始系統(tǒng)性地反向傳播。與TDRL RPE不同,ANCCR不進行這樣的預測,因為ANCCR中的延遲周期沒有被分解成狀態(tài)[Fig.4A]。


第二個是,在順序調(diào)節(jié)期間(cue1預測 cue2預測 獎勵),多巴胺反應首先增加到cue2,然后增加到cue1。ANCCR反而預測,當?shù)弥猚ue2是由cue1引起的時,多巴胺對兩種線索的反應會一起增加,隨后會分化[Fig.4C]。


第三個,在連續(xù)條件調(diào)節(jié)期間,人為地抑制cue2釋放多巴胺以獲得獎勵,將阻止cue1反應的學習。相反,在ANCCR中抑制cue2反應只會阻止cue1-cue2關聯(lián)學習,并且不阻止cue1響應的學習[Fig.4E-H]。



Figure 4 學習期間多巴胺信號無反向傳播



結 論


NAcc中中腦邊緣多巴胺釋放的動力學在大量實驗中與TDRL RPE不一致,但仍與因果學習算法一致。這里提出的算法通過測試刺激是否先于偶然預期的獎勵,并將這種關聯(lián)轉(zhuǎn)換為預期預測。


參考文獻:

Jeong, Huijeong et al. “Mesolimbic dopamine release conveys causal associations.” Science (New York, N.Y.), eabq6740. 8 Dec. 2022, doi:10.1126/science.abq6740


編譯作者:Young(brainnews創(chuàng)作團隊)

校審:Simon(brainnews編輯部)




Science:挑戰(zhàn)傳統(tǒng)理論,重塑聯(lián)想學習概念的評論 (共 條)

分享到微博請遵守國家法律
古丈县| 即墨市| 汉沽区| 靖西县| 河源市| 盖州市| 罗平县| 武强县| 四川省| 延庆县| 习水县| 汾阳市| 当阳市| 壤塘县| 锦屏县| 政和县| 越西县| 宕昌县| 克拉玛依市| 冀州市| 昂仁县| 永定县| 乌鲁木齐县| 类乌齐县| 和林格尔县| 新民市| 镇巴县| 惠东县| 成安县| 温宿县| 苍山县| 阿合奇县| 阜宁县| 响水县| 丹阳市| 普定县| 射洪县| 闻喜县| 海丰县| 泸州市| 固安县|