4D-Net 通過融合點云、攝像頭和時間數(shù)據(jù)來提升自動駕駛視覺能力

2022-03-18 09:46 性質(zhì)：原創(chuàng) 作者：DDing 來源：中國AGV網(wǎng)

免責(zé)聲明：AGV網(wǎng)（m.wnmc.org.cn)尊重合法版權(quán)，反對侵權(quán)盜版。（凡是我網(wǎng)所轉(zhuǎn)載之文章，文中所有文字內(nèi)容和圖片視頻之知識產(chǎn)權(quán)均系原作者和機(jī)構(gòu)所有。文章內(nèi)容觀點，與本網(wǎng)無關(guān)。如有需要刪除，敬請來電商榷?。?/div>

谷歌和 Waymo 的 4D-Net 旨在解決在遠(yuǎn)處準(zhǔn)確檢測物體（如其他車輛和行人）的問題，提供了一種新穎且可推廣的傳感器融合方法，并取得了一些令人印象深刻的結(jié)果。4D-Net 旨在找到隨時間捕獲的 ...

谷歌和 Waymo 的 4D-Net 旨在解決在遠(yuǎn)處準(zhǔn)確檢測物體（如其他車輛和行人）的問題，提供了一種新穎且可推廣的傳感器融合方法，并取得了一些令人印象深刻的結(jié)果。

4D-Net 旨在找到隨時間捕獲的 2D 圖像和 3D 點云數(shù)據(jù)之間的鏈接，極大地促進(jìn)了遠(yuǎn)程目標(biāo)檢測。

安全、可靠的自動駕駛汽車的關(guān)鍵——甚至高于其車載自動駕駛系統(tǒng)的智能程度——可能在于它處理傳感器數(shù)據(jù)的效率。就像人類駕駛員的視力測試一樣，重要的是要知道自動駕駛汽車系統(tǒng)可以發(fā)現(xiàn)危險并做出相應(yīng)的反應(yīng)——無論問題有多小或多遠(yuǎn)。

傳統(tǒng)的二維攝像頭系統(tǒng)和三維傳感器，如 LiDAR（光檢測和測距），可能不足以實現(xiàn)完全的可靠性和安全性，谷歌和 Alphabet 的自動駕駛汽車子公司 Waymo 的一個團(tuán)隊研究了第四維： 4D-Net，一種對象檢測方法，將二維和三維數(shù)據(jù)與第四維時間融合在一起，聲稱性能顯著提高。

時間足夠

谷歌研究科學(xué)家和論文合著者 AJ Piergiovanni 和 Anelia Angelova 在一份關(guān)于工作?！拔覀冞€引入了一種動態(tài)連接學(xué)習(xí)方法，該方法通過跨兩種特征表示執(zhí)行連接學(xué)習(xí)來整合來自場景的 4D 信息?！?/p>

4D-Net 方法源于一個簡單的觀察：大多數(shù)配備傳感器的現(xiàn)代車輛包括二維和三維傳感器，通常采用多個攝像頭模塊和 LiDAR 的形式，數(shù)據(jù)是在一段時間內(nèi)收集的——但是很少有人努力將所有內(nèi)容集中在一個地方并作為一個整體進(jìn)行處理。

4D-Net 系統(tǒng)旨在通過將二維相機(jī)圖像與 3D 點云數(shù)據(jù)相結(jié)合來提高遠(yuǎn)距離物體識別的準(zhǔn)確性——所有這些數(shù)據(jù)都被收集起來以捕捉運(yùn)動。

4D-Net 解決了這一差距，將 3D 點云數(shù)據(jù)與可見光相機(jī)圖像混合，同時通過處理在設(shè)定時間段內(nèi)捕獲的一系列數(shù)據(jù)來混合時間元素。其成功的秘訣：一種新穎的學(xué)習(xí)技術(shù)，它可以自主地發(fā)現(xiàn)和建立數(shù)據(jù)之間的聯(lián)系，在不同的層次上動態(tài)地融合它，以便單獨(dú)提高任何數(shù)據(jù)饋送的性能。

“時間圖像信息量很大，并且與靜止圖像和 PCiT [時間點云] 相輔相成，”研究人員解釋了該方法的好處?！笆聦嵣希瑢τ诰哂刑魬?zhàn)性的檢測案例，運(yùn)動可能是一個非常有力的線索。雖然可以在 3D 中捕獲運(yùn)動，但純粹基于 PC [點云] 的方法可能會因為傳感稀疏性而錯過此類信號'’——順便說一句，同樣的問題意味著 LiDAR 傳感器可能會錯過遠(yuǎn)處或小的物體，但在可見光攝像系統(tǒng)或駕駛員的肉眼上拾取。

機(jī)器學(xué)習(xí)時間

為了處理這兩種類型的數(shù)據(jù)，團(tuán)隊轉(zhuǎn)向一系列預(yù)處理步驟。3D 點云數(shù)據(jù)通過 PointPillars 運(yùn)行，PointPillars 是一種用于將數(shù)據(jù)轉(zhuǎn)換為偽圖像的系統(tǒng)，可以使用為二維數(shù)據(jù)設(shè)計的卷積神經(jīng)網(wǎng)絡(luò) (CNN) 進(jìn)行進(jìn)一步處理，每個點添加一個時間指示器以創(chuàng)建包括運(yùn)動在內(nèi)的更密集的表示。還使用了轉(zhuǎn)換為固定大小的表示，有效地對點云進(jìn)行二次采樣——這種方法在數(shù)據(jù)稀疏的地方使點云變密，在數(shù)據(jù)密集的地方使其稀疏，從而提高遠(yuǎn)距離的性能。

與此同時，二維相機(jī)數(shù)據(jù)通過 Tiny Video Networks 處理成特征圖，然后投影數(shù)據(jù)以將 3D 點與 2D 圖像上的對應(yīng)點對齊——這一過程假設(shè)“校準(zhǔn)和同步傳感器”。對于位于車輛攝像頭視野之外的點云數(shù)據(jù)，應(yīng)用零向量。

使用多種分辨率的圖像和視頻饋送的 4D-Net 系統(tǒng)變體被證明是理想的，在基準(zhǔn)測試中比單饋送變體提供額外的精度增益。

然而，4D-Net 系統(tǒng)真正聰明的部分在于其連接架構(gòu)搜索的形式——它能夠從融合數(shù)據(jù)中提取最多、最合適的信息。一次性輕量級可微架構(gòu)搜索可在 3D 和時間中找到相關(guān)信息，并將其連接到兩種不同的傳感模式 - 并學(xué)習(xí)兩個傳感器在不同抽象級別的特征表示組合。

“[This] 非常強(qiáng)大！“該團(tuán)隊解釋說：“因為它允許學(xué)習(xí)不同級別的特征抽象和不同特征來源之間的關(guān)系。為了進(jìn)一步調(diào)整自動駕駛汽車的方法，該團(tuán)隊根據(jù)自我注意機(jī)制的概念將連接修改為動態(tài)的，允許網(wǎng)絡(luò)動態(tài)選擇特定的可見光數(shù)據(jù)塊進(jìn)行信息提取——這意味著它可以學(xué)習(xí)如何和在哪里根據(jù)可變輸入選擇特征。

令人印象深刻的結(jié)果

測試系統(tǒng)的單流和多流變體，后者以靜態(tài)圖像和以不同分辨率運(yùn)行的視頻饋送形式引入額外的輸入流，該團(tuán)隊聲稱與競爭對手的狀態(tài)相比取得了一些令人印象深刻的收益-最先進(jìn)的方法。

針對 Waymo 開放數(shù)據(jù)集進(jìn)行測試，4D-Net 提高了所有測試競爭對手方法的平均精度 (AP)。雖然平均而言，它的性能被證明在較短的距離上較弱，但據(jù)報道，它識別更遠(yuǎn)物體的能力——尤其是 50 米以上的范圍——是無與倫比的，尤其是在多流模式下運(yùn)行時。

該團(tuán)隊的實驗表明，4D-Net 在中遠(yuǎn)距離與競爭對手的方法相比有顯著的準(zhǔn)確度提升，盡管在較短的檢測距離下準(zhǔn)確度有所下降。

“我們展示了改進(jìn)的最先進(jìn)性能和具有競爭力的推理運(yùn)行時間?！痹搱F(tuán)隊總結(jié)道：“盡管及時使用了 4D 傳感和兩種模式。在不失一般性的情況下，相同的方法可以擴(kuò)展到其他 RGB 圖像流，例如，為高度遮擋的對象提供關(guān)鍵信息的側(cè)攝像頭，或用于 PC [點云] 或圖像的各種可學(xué)習(xí)特征表示，或其他傳感器?！?/p>

研究人員建議，4D-Net 方法也可以用于自動駕駛領(lǐng)域之外，只要需要通過自動對齊音頻、視頻、文本和圖像數(shù)據(jù)來捕獲同一領(lǐng)域的不同方面。

該團(tuán)隊的工作在 2021 年計算機(jī)視覺國際會議 (ICCV) 上進(jìn)行了介紹，并已在開放獲取條款下提供。Google AI 博客上提供了 AJ Piergiovanni 和 Anelia Angelova 的支持性文章。研究人員已承諾在開源許可下提供他們的代碼，但在撰寫本文時尚未發(fā)布。