五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

基于GNN為群體機器人構(gòu)建信息分享機制

2022-02-08 19:44 作者:深藍學院  | 我要投稿

本人總結(jié)于2022年1月12日劍橋大學計算機系Prorok 實驗室李慶標博士關(guān)于“基于GNN為群體機器人構(gòu)建信息分享機制”在深藍學院的公開課。

在社交網(wǎng)絡(luò)中,好友彼此的關(guān)系就是通過圖來表達的;城市交通系統(tǒng)中站點之間的連接關(guān)系也可以用圖來表示;我們平時接收的推送往往也是根據(jù)用戶和他感興趣的話題的聯(lián)系所構(gòu)建的系統(tǒng);新冠等病毒在人體內(nèi)的傳播同樣也可以理解為圖的形式。

上述這些可以用圖表示的情景其實都和圖神經(jīng)網(wǎng)絡(luò)有著一定關(guān)聯(lián),那么我們該如何理解圖神經(jīng)網(wǎng)絡(luò)呢?

01如何理解圖神經(jīng)網(wǎng)絡(luò)呢?

我們可以把圖神經(jīng)網(wǎng)絡(luò)和處理圖片的神經(jīng)網(wǎng)絡(luò)進行對比:圖片可以理解為每個像素點和相鄰點相互連接形成的圖結(jié)構(gòu),圖片上每個像素點和周圍像素點的關(guān)系相對固定,都可以用上下左右的位置關(guān)系來表達,而普通的圖上的點與點之間的位置和距離相對靈活。在用圖來表達機器人的相對位置關(guān)系的時候,我們可以通過圖卷積的方式收集一個機器人和它相鄰點的信息,從而實現(xiàn)了去中心化的圖神經(jīng)網(wǎng)絡(luò)。機器人根據(jù)相鄰機器人提供的信息進行決策,其實可以看作是一個節(jié)點分類(node classification)問題,而利用多次的卷積操作,機器人將會獲得更大范圍的數(shù)據(jù)。

圖深度網(wǎng)絡(luò)從16年至今,已經(jīng)出現(xiàn)了一些不錯的“打榜”數(shù)據(jù)庫,比如斯坦福提供的數(shù)據(jù)庫,還有比較主流的Pytorch geometric和DGL數(shù)據(jù)庫,我在研究中用得比較多的是賓夕法尼亞大學提供的Alelab-Upenn數(shù)據(jù)庫。


圖一:圖片可以看作一種特殊的圖

我們該如何把機器人的路徑規(guī)劃問題改為圖神經(jīng)網(wǎng)絡(luò)或者神經(jīng)網(wǎng)絡(luò)可以解決的問題呢?一個經(jīng)典的神經(jīng)網(wǎng)絡(luò)通常包括如何去定義一個問題,收集數(shù)據(jù),進行訓練,觀測和調(diào)參,最后運行模型。對于robot learning相關(guān)的方向,相比于圖像分類等問題,如何去定義是非常關(guān)鍵和具有針對性的。我博士目前的研究內(nèi)容就是基于圖神經(jīng)網(wǎng)絡(luò),實現(xiàn)去中心化的路徑規(guī)劃。

接下來,我將介紹如何將群體機器人路徑規(guī)劃的問題轉(zhuǎn)化為機器人的連續(xù)的動作決策的問題。

02 機器人連續(xù)的動作決策問題

首先,為什么要研究群體機器人?

在目前,單體機器人和機械臂已經(jīng)在工廠等領(lǐng)域有了一定應用,而群體機器人的研究可以提升多個機器人彼此之間合作的效率,使得它能夠應對更復雜的環(huán)境和問題。比如針對倉儲物流,自動駕駛和都市安防,這些應用的實現(xiàn),需要保證每個機器人可以無沖突地達到目的地去執(zhí)行任務(wù)。

而這個任務(wù)的難點是什么呢?A星算法可以使機器人從A點到B點的路徑最優(yōu),但是它的復雜度也會隨著機器人數(shù)量的增加指數(shù)性的增長,其它路徑規(guī)劃算法也存在著同樣的問題。

針對群體機器人的路徑規(guī)劃,主要包括兩種思路,一種是中心化的算法。另一種是去中心化的。中心化的算法需要統(tǒng)一收集機器人的狀態(tài)信息,來計算它們各自的路徑;去中心化算法可以讓機器人各自為陣,利用各自視野內(nèi)的局部信息,通過機器人的相互通信,引導機器人抵達目的地。而今天介紹的主要是去中心化的算法,我將介紹如何從問題定義到實施,利用圖神經(jīng)網(wǎng)絡(luò)來實現(xiàn)多機器人的路徑規(guī)劃。

如何定義機器人群路徑規(guī)劃問題?

我們通常將機器人的路徑規(guī)劃問題轉(zhuǎn)化為一系列動作決策問題,我們希望通過每個機器人每一時刻的局部信息和相鄰機器人的信息來進行動作決策,使他們可以通過當前位置達到目的地。每個機器人具有它視野內(nèi)的障礙物,目標點和環(huán)境信息,我們可以通過交叉熵損失函數(shù)進行對比,來求得每一步的最優(yōu)解。并且,我們可以用中心化專家算法生成的數(shù)據(jù)集去訓練我們的去中心化算法,這樣的訓練機制也可以被稱為模仿學習。

而具體的實現(xiàn)可以利用圖卷積的方式收集節(jié)點和其周圍點的信息集合,使機器人除了自己的信息,還有更多相鄰的信息。我們的框架包括如下幾個部分:一是通過專家算法生成訓練集,轉(zhuǎn)化為(狀態(tài),地圖,目標)三個通道的輸入。接下來,通過卷積神經(jīng)網(wǎng)絡(luò),圖神經(jīng)網(wǎng)絡(luò)和全連接層的操作,生成用于決策的動作,將動作和專家算法的結(jié)果進行交叉熵比對,從而訓練我們的去中心化算法。

GNN用于機器人路徑規(guī)劃算法流程

具體而言,在數(shù)據(jù)生成階段,我們會給各個機器人分配不一樣的起點和終點。在此基礎(chǔ)之上,我們會利用專家算法生成最優(yōu)解,并且采集每個時刻每個機器人視野范圍之內(nèi)的環(huán)境信息,目標信息和視野內(nèi)的機器人信息作為網(wǎng)絡(luò)的輸入信息。

在去中心化的框架中,我們利用CNN實現(xiàn)單個機器人的信息編碼,利用GNN實現(xiàn)信息的通信和共享,最后利用多層感知機確定最后的決策,并利用交叉熵來優(yōu)化網(wǎng)絡(luò)。

當一個網(wǎng)絡(luò)訓練好后,我們可以對其進行測試和評估。首先,我們通過前反饋的方式得到動作決策,然后檢測動作是否和障礙物以及其他機器人狀態(tài)存在沖突,如果有的話,我們將要求機器人停止運動;如果沒有,機器人將正常運動,并進行狀態(tài)更新。當機器人到達目的地后,我們將檢測所有機器人是否達到目的地,如果沒有,我們將記錄相應的最大步長。

為了進一步改進網(wǎng)絡(luò),我們還提出了OE機制(online expert),即在訓練過程中隨機采集一些數(shù)據(jù),并測試在這些場景下,機器人是否能成功達到目的地,如果不可以,我們會利用專家系統(tǒng)生成解決方案,并把生成的新數(shù)據(jù)加入訓練集,從而實現(xiàn)訓練集的擴充,更好的訓練網(wǎng)絡(luò)。這種方法可以不斷提升網(wǎng)絡(luò)在處理自己不擅長的場景時的能力。

在實驗效果的評測中,我們需要驗證的是:圖神經(jīng)網(wǎng)絡(luò)的參與是否會改進系統(tǒng)的性能?網(wǎng)絡(luò)是否通過去中心化的機制實現(xiàn)了更好的擴展性?而我們可以用成功率和步長來評估網(wǎng)絡(luò)的性能。

我的另一個工作是對于此前工作的改善,我們希望機器人利用注意力機制有的放矢的利用周圍機器人的信息,從而可以相對快的到達目的地。在Message-Aware Graph Attention Networks這個工作中,我們通過限定通信半徑來建立拓撲矩陣,并通過訓練得到節(jié)點之間的權(quán)重,每個相鄰機器人的權(quán)重會不斷動態(tài)變化。

實驗效果證明,隨著機器人數(shù)量的增加,相比于GATF和GNN等框架,MAGAT展現(xiàn)了更穩(wěn)定的性能,并且機器人實現(xiàn)了很高的到達目的地的成功率,而運算時間也要遠遠小于專家系統(tǒng)。

采用MAGAT控制機器人路徑效果圖

作為總結(jié),我所做的工作就是提出了一個端對端的基于學習的去中心化的路徑規(guī)劃框架。它采用CNN進行局部特征的觀察,采用GNN實現(xiàn)機器人間的信息共享。

在MAGAT中,利用注意力機制,機器人可以有的放矢地使用周邊機器人的信息。

而結(jié)果證明,去中心化的算法可以實現(xiàn)接近專家系統(tǒng)的表現(xiàn);機器人間的相互通信可以有效提高系統(tǒng)性能;我們的模型可以擴展到100個以上的機器人和陌生的環(huán)境中。

基于GNN為群體機器人構(gòu)建信息分享機制的評論 (共 條)

分享到微博請遵守國家法律
浦东新区| 萍乡市| 仪征市| 桦川县| 浦县| 怀宁县| 木里| 石城县| 平湖市| 乌拉特后旗| 梧州市| 河津市| 寻甸| 贵定县| 鱼台县| 含山县| 寿宁县| 北京市| 上高县| 铜梁县| 革吉县| 通渭县| 渭源县| 牟定县| 麦盖提县| 新昌县| 亚东县| 九龙坡区| 蓬安县| 垣曲县| 饶阳县| 贵州省| 扎赉特旗| 罗平县| 娄烦县| 平原县| 正安县| 泰宁县| 阿荣旗| 民权县| 泊头市|