MUTR3D：基于3D到2D查詢的多相機跟蹤框架 CVPR2022

2022-06-25 14:02 作者:StrongerTang 0人讀過 | 我要投稿

1 前言

自從去年4月參加工作以來，就算一直沒有再做跟蹤任務，只中間給車道線加了個sort算法，實現了id輸出和跟蹤，也不過是半天的事情，而且方法相當傳統(tǒng)。

最近，終于又開始做跟蹤功能了，于是做了一些調研和整理，不得不感慨跟蹤任務發(fā)展也是相當快，誕生了很多改進方案。后面也打算陸續(xù)寫個系列進行分享，歡迎感興趣的朋友保持關注，也歡迎做跟蹤任務的朋友加入交流群一起交流討論。

關于目標跟蹤，一般分為單目標跟蹤（SOT）和多目標跟蹤（MOT），我接觸的主要是MOT，之前也分享過幾篇文章：

點擊鏈接進入：

多目標跟蹤(MOT)最新綜述，一文快速入門

多目標跟蹤MOT入門教程、百度實時跟蹤系統(tǒng)PP-Tracking介紹與上手

多目標跟蹤MOT未來研究方向討論

https://www.bilibili.com/read/cv16181337?spm_id_from=333.999.0.0

今天給大家分享一篇近期開源的新工作MUTR3D，也是中了CVPR 2022 Workshop on Autonomous Driving。

3D跟蹤在自動駕駛、機器人、虛擬現實等任務的感知環(huán)節(jié)至關重要，其負責預測每幀對象，并在時間上找到不同幀目標之間的對應關系。當使用多相機進行3D跟蹤時，會出現檢測精度降低、復雜場景中的遮擋和模糊、邊界對象丟失等問題。為此，本次分享的MUTR3D提出了一種端到端的多相機多對象跟蹤算法，該算法適用于已知參數的任意相機，效果可以。并且，代碼已經在幾天前開源。

原文：https://arxiv.org/abs/2205.00613

代碼：https://github.com/a1600012888/MUTR3D

2 摘要

多相機的精確和一致的3D跟蹤是基于視覺的自動駕駛系統(tǒng)的關鍵組成部分，其涉及跨多個相機在復雜場景中建模3D動態(tài)對象。由于深度估計、視覺遮擋、外觀模糊等，這個問題本身具有較大的挑戰(zhàn)性。此外，目標并不總是跨時間、跨相機相關聯的。為了解決這些問題，文章提出了一個名為MUTR3D的端到端多相機跟蹤框架。

與先前的工作相比，MUTR3D不明確依賴于目標的空間和外觀相似性。相反，MUTR3D引入3D軌跡查詢來為出現在多個相機和多幀中的每個目標建模空間和外觀連貫軌跡。使用相機變換將3D跟蹤器與它們在2D圖像中的觀察結果關聯起來。每個跟蹤器根據從相機圖像獲得的特征進行進一步細化。

MUTR3D使用集合到集合的損失來度量預測的跟蹤結果和ground truth之間的差異。因此，不需要非最大值抑制、邊界框關聯等后處理操作。在基準數據集nuScenes上，AMOTA指標上MUTR3D的性能高于最先進的方法5.3個點。

3 算法介紹

上圖是MUTR3D的示意圖，以端到端的方式使用空間和外觀相似性將目標關聯到3D軌跡中。具體說，MUTR3D引入了3D軌跡查詢，它直接模擬目標軌跡隨時間和不同相機的3D狀態(tài)和外觀特征。

對于每一幀，3D軌跡查詢來自所有可見相機的樣本特征，并學習去創(chuàng)建、跟蹤、結束軌跡。與以往算法不同的是，MUTR3D在一個統(tǒng)一的端到端框架中同時執(zhí)行檢測和跟蹤。文章作者總結主要有以下三方面的貢獻：

MUTR3D是第一個完全端到端的多相機3D跟蹤框架。與現有的使用顯式跟蹤試探法的檢測跟蹤方法不同，MUTR3D隱式地模擬了目標軌跡的位置和外觀變化。此外，MUTR3D通過消除常用的后處理步驟，如非最大值抑制、邊界框關聯和Re-ID，簡化了3D跟蹤流程。
MUTR3D引入一個3D軌跡查詢，它可以模擬一個目標的整個軌跡的3D狀態(tài)。3D軌跡查詢從所有可見相機采樣特征，并端到端地逐幀更新軌跡。
在nuScenes純視覺3D跟蹤任務上實現了SOTA性能。
提出了兩個新的指標來評估當前3D跟蹤器中的運動模型：平均跟蹤速度誤差(ATVE)和跟蹤速度誤差(TVE)?？梢詼y量被跟蹤目標的估計運動的誤差。

3.1 基于查詢的目標跟蹤

MUTR3D采用基于查詢的跟蹤，在每一幀開始時，初始化一組新生查詢，然后查詢以自回歸的方式逐幀更新自身。解碼器頭從每幀中的每條軌跡查詢中預測一個候選對象，并且在來自同一軌跡查詢的不同幀中解碼的預測被直接關聯。通過適當的查詢生命周期管理，基于查詢的跟蹤可以以在線方式執(zhí)行聯合檢測和跟蹤。

黑色虛線框中的所有彩色小方塊代表跟蹤查詢，藍框代表新生查詢，橙色框表示來自先前幀的舊查詢

如上圖所示，MUTR3D包括三個關鍵部分：

基于查詢的對象跟蹤損失為兩種不同類型的查詢(新生查詢和舊查詢)分配不同的回歸目標。
多相機稀疏注意使用3D參考點來為每個查詢采樣圖像特征。
運動模型估計目標動態(tài)并跨幀更新查詢的參考點。跟蹤查詢伴隨多相機特征以在當前幀中的候選目標中解碼，然后過濾掉不活躍的查詢，并更新主動查詢的參考點來進行補充目標運動和自身運動。最后，更新的查詢轉到后續(xù)幀來跟蹤相同的目標。

3.2 端到端目標跟蹤損失

MUTR3D對于每一幀有兩種類型的查詢，并且有不同的標簽分配策略。新生查詢(newborn query)是一組經過學習的查詢，它們與輸入無關并且在每幀開始時被添加到查詢隊列中。新生查詢負責在當前幀中檢測新出現的目標，并使用新出現的真值目標作為查詢的回歸目標，在新生查詢的候選目標之間執(zhí)行匹配。舊查詢(old query)是來自成功檢測或跟蹤目標的先前幀的活躍查詢。舊查詢負責跟蹤當前幀中之前出現的目標，它在第一次成功檢測到真值目標后被分配。

3.3 多相機跟蹤查詢解碼

MUTR3D的transformer解碼器頭負責跟蹤查詢，關注它們的多相機圖像特征，并提取的查詢特征將用于解碼候選目標。解碼器有兩種注意力模塊：查詢中的自注意力和查詢及圖像特征中的交叉注意力。為了提高效率，作者采用了來自DETR3D的基于參考點的注意力來執(zhí)行交叉注意力。在具體的執(zhí)行方面，分別包括查詢初始化、查詢特征提取以及3D對象參數化三個步驟。