五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網 會員登陸 & 注冊

MUTR3D:基于3D到2D查詢的多相機跟蹤框架 CVPR2022

2022-06-25 14:02 作者:StrongerTang  | 我要投稿

1 前言

自從去年4月參加工作以來,就算一直沒有再做跟蹤任務,只中間給車道線加了個sort算法,實現了id輸出和跟蹤,也不過是半天的事情,而且方法相當傳統(tǒng)。

最近,終于又開始做跟蹤功能了,于是做了一些調研和整理,不得不感慨跟蹤任務發(fā)展也是相當快,誕生了很多改進方案。后面也打算陸續(xù)寫個系列進行分享,歡迎感興趣的朋友保持關注,也歡迎做跟蹤任務的朋友加入交流群一起交流討論。

關于目標跟蹤,一般分為單目標跟蹤(SOT)和多目標跟蹤(MOT),我接觸的主要是MOT,之前也分享過幾篇文章:

點擊鏈接進入:

多目標跟蹤(MOT)最新綜述,一文快速入門

多目標跟蹤MOT入門教程、百度實時跟蹤系統(tǒng)PP-Tracking介紹與上手

多目標跟蹤MOT未來研究方向討論

https://www.bilibili.com/read/cv16181337?spm_id_from=333.999.0.0


今天給大家分享一篇近期開源的新工作MUTR3D,也是中了CVPR 2022 Workshop on Autonomous Driving。

3D跟蹤在自動駕駛、機器人、虛擬現實等任務的感知環(huán)節(jié)至關重要,其負責預測每幀對象,并在時間上找到不同幀目標之間的對應關系。當使用多相機進行3D跟蹤時,會出現檢測精度降低、復雜場景中的遮擋和模糊、邊界對象丟失等問題。為此,本次分享的MUTR3D提出了一種端到端的多相機多對象跟蹤算法,該算法適用于已知參數的任意相機,效果可以。并且,代碼已經在幾天前開源。

原文:arxiv.org/abs/2205.0061

代碼:github.com/a1600012888/

2 摘要

多相機的精確和一致的3D跟蹤是基于視覺的自動駕駛系統(tǒng)的關鍵組成部分,其涉及跨多個相機在復雜場景中建模3D動態(tài)對象。由于深度估計、視覺遮擋、外觀模糊等,這個問題本身具有較大的挑戰(zhàn)性。此外,目標并不總是跨時間、跨相機相關聯的。為了解決這些問題,文章提出了一個名為MUTR3D的端到端多相機跟蹤框架。

與先前的工作相比,MUTR3D不明確依賴于目標的空間和外觀相似性。相反,MUTR3D引入3D軌跡查詢來為出現在多個相機和多幀中的每個目標建模空間和外觀連貫軌跡。使用相機變換將3D跟蹤器與它們在2D圖像中的觀察結果關聯起來。每個跟蹤器根據從相機圖像獲得的特征進行進一步細化。

MUTR3D使用集合到集合的損失來度量預測的跟蹤結果和ground truth之間的差異。因此,不需要非最大值抑制、邊界框關聯等后處理操作。在基準數據集nuScenes上,AMOTA指標上MUTR3D的性能高于最先進的方法5.3個點。

3 算法介紹

上圖是MUTR3D的示意圖,以端到端的方式使用空間和外觀相似性將目標關聯到3D軌跡中。具體說,MUTR3D引入了3D軌跡查詢,它直接模擬目標軌跡隨時間和 不同相機的3D狀態(tài)和外觀特征。

對于每一幀,3D軌跡查詢來自所有可見相機的樣本特征,并學習去創(chuàng)建、跟蹤、結束軌跡。與以往算法不同的是,MUTR3D在一個統(tǒng)一的端到端框架中同時執(zhí)行檢測和跟蹤。文章作者總結主要有以下三方面的貢獻:

  • MUTR3D是第一個完全端到端的多相機3D跟蹤框架。與現有的使用顯式跟蹤試探法的檢測跟蹤方法不同,MUTR3D隱式地模擬了目標軌跡的位置和外觀變化。此外,MUTR3D通過消除常用的后處理步驟,如非最大值抑制、邊界框關聯和Re-ID,簡化了3D跟蹤流程。

  • MUTR3D引入一個3D軌跡查詢,它可以模擬一個目標的整個軌跡的3D狀態(tài)。3D軌跡查詢從所有可見相機采樣特征,并端到端地逐幀更新軌跡。

  • 在nuScenes純視覺3D跟蹤任務上實現了SOTA性能。

  • 提出了兩個新的指標來評估當前3D跟蹤器中的運動模型:平均跟蹤速度誤差(ATVE)和跟蹤速度誤差(TVE)??梢詼y量被跟蹤目標的估計運動的誤差。

3.1 基于查詢的目標跟蹤

MUTR3D采用基于查詢的跟蹤,在每一幀開始時,初始化一組新生查詢,然后查詢以自回歸的方式逐幀更新自身。解碼器頭從每幀中的每條軌跡查詢中預測一個候選對象,并且在來自同一軌跡查詢的不同幀中解碼的預測被直接關聯。通過適當的查詢生命周期管理,基于查詢的跟蹤可以以在線方式執(zhí)行聯合檢測和跟蹤。


黑色虛線框中的所有彩色小方塊代表跟蹤查詢,藍框代表新生查詢,橙色框表示來自先前幀的舊查詢

如上圖所示,MUTR3D包括三個關鍵部分:

  • 基于查詢的對象跟蹤損失為兩種不同類型的查詢(新生查詢和舊查詢)分配不同的回歸目標。

  • 多相機稀疏注意使用3D參考點來為每個查詢采樣圖像特征。

  • 運動模型估計目標動態(tài)并跨幀更新查詢的參考點。跟蹤查詢伴隨多相機特征以在當前幀中的候選目標中解碼,然后過濾掉不活躍的查詢,并更新主動查詢的參考點來進行補充目標運動和自身運動。最后,更新的查詢轉到后續(xù)幀來跟蹤相同的目標。

3.2 端到端目標跟蹤損失

MUTR3D對于每一幀有兩種類型的查詢,并且有不同的標簽分配策略。新生查詢(newborn query)是一組經過學習的查詢,它們與輸入無關并且在每幀開始時被添加到查詢隊列中。新生查詢負責在當前幀中檢測新出現的目標,并使用新出現的真值目標作為查詢的回歸目標,在新生查詢的候選目標之間執(zhí)行匹配。舊查詢(old query)是來自成功檢測或跟蹤目標的先前幀的活躍查詢。舊查詢負責跟蹤當前幀中之前出現的目標,它在第一次成功檢測到真值目標后被分配。

3.3 多相機跟蹤查詢解碼

MUTR3D的transformer解碼器頭負責跟蹤查詢,關注它們的多相機圖像特征,并提取的查詢特征將用于解碼候選目標。解碼器有兩種注意力模塊:查詢中的自注意力和查詢及圖像特征中的交叉注意力。為了提高效率,作者采用了來自DETR3D的基于參考點的注意力來執(zhí)行交叉注意力。在具體的執(zhí)行方面,分別包括查詢初始化、查詢特征提取以及3D對象參數化三個步驟。

3.4 查詢生命周期管理

為了以在線方式處理已經消失的對象,MUTR3D在每一幀刪除不活躍的查詢。具體來說,將每個查詢的置信度分數定義為其預測框的分類分數,使用兩個閾值參數Tnew和Told作為目標框分數和一個時間長度T來控制查詢的生命周期。

在算法執(zhí)行過程中,對于每一幀中的新生查詢,如果分數低于Tnew,就執(zhí)行刪除。對于舊的查詢,如果它們的分數低于連續(xù)T幀的Told,就執(zhí)行刪除。

3.5 查詢更新和運動模型

在過濾掉無效查詢后,MUTR3D會更新跟蹤查詢,包括它們的特性和3D參考點。更新三維參考點的目的是為了模擬目標的動力學和補償自身運動。同時,作者使用從查詢中預測的速度,它的好處是可以通過幀進行更新,并可以聚合多幀特征。

同時,為了隱式地建模多幀外觀變化,MUTR3D使用來自歷史幀的特性來更新跟蹤查詢。與MOTR做法類似,作者為每個活動查詢維護一個固定大小的先入先出隊列,即memory。在每一幀為每個查詢及其memory應用一個注意力模塊。跟蹤查詢作為注意模塊的查詢,相應的memory作為一組鍵和值。

4 實驗

在基準數據集nuScenes上進行算法評估,并使用AMOTA和AMOTP作為主要指標。

為了評估不同跟蹤算法的運動模型,作者提出了兩種評價標準ATVE (Average Tracking Velocity Error) 和TVE (Tracking Velocity Error)。其中TVE是在MOTA最高的召回時的平均速度誤差,ATVE的計算公式如下:

下表是運動模型的評價結果,與基于運動模型的卡爾曼濾波相比:

消融實驗

消融實驗中研究了兩個因素。首先,作者研究不使用運動模型的影響,即不在每幀結束時更新3D參考點。下表實驗結果表明移除運動模型會降低所有指標的性能。

同時,作者研究訓練幀數的影響。對所有的實驗采用ResNet-50作為backbone,下表為分別使用3、4、5幀進行訓練的結果,結果表明提升訓練幀數會逐漸提升性能。

5 可視化效果

推薦閱讀:(點擊進入)

3D車輛跟蹤方案對比,CenterTrack、AB3DMOT、PointRCNN,哪個好

多目標跟蹤MOT入門教程、百度實時跟蹤系統(tǒng)PP-Tracking介紹與上手

MUTR3D:基于3D到2D查詢的多相機跟蹤框架 CVPR2022的評論 (共 條)

分享到微博請遵守國家法律
潞西市| 安康市| 洪洞县| 岚皋县| 黄石市| 沙河市| 故城县| 文化| 康马县| 余庆县| 石门县| 长沙县| 巩义市| 黑龙江省| 浦东新区| 贺兰县| 名山县| 临泉县| 铅山县| 新野县| 黑山县| 乃东县| 临沂市| 阿坝| 湖南省| 右玉县| 水城县| 全椒县| 丹阳市| 苏尼特右旗| 凌云县| 二连浩特市| 五莲县| 桃园市| 乐平市| 漠河县| 巍山| 云浮市| 哈密市| 洞头县| 双江|