在《我的世界》里挖鉆石把AI難哭,DeepMind最新算法終于扳回顏面
又一個(gè)AI老大難問(wèn)題,被DeepMind攻克了:
一只名叫DreamerV3的AI,在啥也不知道的情況下被丟進(jìn)《我的世界》(MineCraft)里,摸爬滾打17天,還真就學(xué)會(huì)了如何從0開(kāi)始挖鉆石。

△就是從擼樹(shù)開(kāi)始的那種
要知道,之前為了攻克這個(gè)問(wèn)題,CMU、微軟、DeepMind和OpenAI還聯(lián)手在NeurIPS上拉了個(gè)比賽,叫MineRL。
結(jié)果搞了三四年,AI們也沒(méi)能在不參考人類經(jīng)驗(yàn)的情況下,完成挖鉆石任務(wù)。
此前表現(xiàn)最好的VPT選手,為了達(dá)成這一成就,可是狂看了70000+小時(shí)《我的世界》游戲視頻,并且用上了720個(gè)V100……
這不DeepMind的最新結(jié)果一出,研究人員都開(kāi)心壞了。
MineRL的發(fā)起人之一、前OpenAI研究科學(xué)家William Guss就第一時(shí)間跑來(lái)發(fā)表賀電:
4年了,“鉆石挑戰(zhàn)”終于被攻克了!

今年剛拿到了NeurIPS杰出數(shù)據(jù)集和基準(zhǔn)論文獎(jiǎng)的MineDojo作者、英偉達(dá)AI科學(xué)家范麟熙則表示:
AI玩轉(zhuǎn)MineCraft背后,有個(gè)莫拉維克悖論:一些任務(wù)對(duì)于人類而言很困難(比如圍棋),但對(duì)AI來(lái)說(shuō)很簡(jiǎn)單。但像MineCraft這樣人類高玩無(wú)數(shù)的游戲,情況卻相反。
DreamerV3能在沒(méi)有任何人工數(shù)據(jù)輔助的情況下收集鉆石,這讓我感到非常興奮。
如何做到
所以,這個(gè)0基礎(chǔ)挖鉆石任務(wù),到底有啥難點(diǎn)?
首先,在《我的世界》里,初始世界是完全隨機(jī)生成的。
即使是人類玩家,想要快速挖到鉆石,也得有相當(dāng)豐富的經(jīng)驗(yàn)。比如,知道怎么推算鉆石的位置、掌握一些挖掘竅門(如魚(yú)骨挖礦法)等。
排除掉經(jīng)驗(yàn)的因素,對(duì)于AI來(lái)說(shuō),這個(gè)挖鉆石的過(guò)程也挺復(fù)雜,至少得要7個(gè)步驟。
第一步,玩家在空手進(jìn)入《我的世界》中時(shí),需要先擼樹(shù)來(lái)獲取木塊:

第二步,得用木塊用來(lái)合成工作臺(tái):

第三步,在工作臺(tái)上合成木鎬,用來(lái)挖圓石:

第四步,獲得圓石之后,需要合成一個(gè)石鎬,用來(lái)快速挖鐵礦:

第五步,為了將鐵礦合成鐵錠,還需要做一個(gè)熔爐來(lái)燒鐵:

第六步,合成鐵鎬,用來(lái)挖鉆石:

第七步,尋找鉆石,然后用鐵鎬挖出鉆石:

p.s. 有玩家測(cè)試過(guò),在AI知道鉆石等各種資源坐標(biāo)的情況下(開(kāi)外掛),也需要2-3分鐘才能搞定。
這也就意味著,AI必須在有限時(shí)間里,做出大量決策。
那么既然不能參考人類高手的經(jīng)驗(yàn),自然就需要強(qiáng)化學(xué)習(xí)(Reinforcement Learning)出馬。
具體而言,DeepMind的研究人員提出了一種基于世界模型的通用算法。
在整體架構(gòu)上,DreamerV3由3個(gè)神經(jīng)網(wǎng)絡(luò)組成:世界模型、評(píng)委(critic)和演員(actor)。

世界模型要做的,是把環(huán)境輸入編碼為離散的表征,并通過(guò)預(yù)測(cè)來(lái)指導(dǎo)下一步要執(zhí)行的操作。
而評(píng)委和演員則會(huì)根據(jù)抽象出來(lái)的表征進(jìn)行學(xué)習(xí)。其中,評(píng)委網(wǎng)絡(luò)會(huì)輸出一個(gè)標(biāo)量值來(lái)代表行動(dòng)價(jià)值,從而幫助演員網(wǎng)絡(luò)選擇最優(yōu)的行動(dòng)。
這里面的一個(gè)核心點(diǎn)在于,DeepMind的研究人員希望DreamerV3不僅僅能處理同類型的問(wèn)題,還可以用固定超參數(shù),掌握跨領(lǐng)域任務(wù)。
因此,研究人員需要系統(tǒng)地解決世界模型、評(píng)委和演員等各個(gè)組件中信號(hào)大小不同,以及穩(wěn)定平衡目標(biāo)的問(wèn)題。
研究人員發(fā)現(xiàn):
以前的世界模型,需要根據(jù)復(fù)雜3D環(huán)境的視覺(jué)輸入,對(duì)表征損失進(jìn)行不同的縮放,在訓(xùn)練過(guò)程中還得調(diào)整不少超參數(shù),但這里面其實(shí)有許多沒(méi)必要的細(xì)節(jié)。
而如果把自由比特(free bits)和KL平衡(KL balancing)結(jié)合起來(lái),就可以在不調(diào)整超參數(shù)的情況下讓DreamerV3在不同領(lǐng)域中學(xué)習(xí)。
KL平衡是上一代DreamerV2中提出的一項(xiàng)新技術(shù)。能夠使預(yù)測(cè)向表征移動(dòng)的速度比表征向預(yù)測(cè)移動(dòng)的速度更快,帶來(lái)更精確的預(yù)測(cè)。
自由比特避免了簡(jiǎn)單環(huán)境下的過(guò)度擬合。

DreamerV3的三大塊都用上了固定超參數(shù),具體如下:

實(shí)驗(yàn)結(jié)果
也就是說(shuō),DreamerV3如今成了世界上第一個(gè)純靠自己摸索,就能在《我的世界》里速挖鉆石的AI。
并且DreamerV3的本事可不只是玩MC。
在另外7項(xiàng)基準(zhǔn)測(cè)試中,DreamerV3都取得了成功,并且在BSuite、Crafter上達(dá)到了SOTA。

值得一提的是,在這些任務(wù)中,訓(xùn)練智能體所用到的GPU資源都僅為1塊V100。研究人員表示,這意味著有更多的實(shí)驗(yàn)室能跑得動(dòng)這一模型。
另外,在需要時(shí)空推理的三維空間中,DreamerV3也能快速進(jìn)行學(xué)習(xí)。
在DeepMind為強(qiáng)化學(xué)習(xí)專門打造的3D平臺(tái)DMLab上,DreamerV3在任務(wù)中使用的交互次數(shù)僅為IMPALA的1/130。

目前,DreamerV3的代碼是coming soon的狀態(tài)。
感興趣的小伙伴可以蹲一波~
參考鏈接:
[1]https://danijar.com/project/dreamerv3/
[2]https://twitter.com/DeepMind/status/1613159943040811010
— 完 —