

谷歌和 Waymo 的 4D-Net 旨在解決在遠(yuǎn)處準(zhǔn)確檢測(cè)物體(如其他車輛和行人)的問(wèn)題,提供了一種新穎且可推廣的傳感器融合方法,并取得了一些令人印象深刻的結(jié)果。
4D-Net 旨在找到隨時(shí)間捕獲的 2D 圖像和 3D 點(diǎn)云數(shù)據(jù)之間的鏈接,極大地促進(jìn)了遠(yuǎn)程目標(biāo)檢測(cè)。
安全、可靠的自動(dòng)駕駛汽車的關(guān)鍵——甚至高于其車載自動(dòng)駕駛系統(tǒng)的智能程度——可能在于它處理傳感器數(shù)據(jù)的效率。就像人類駕駛員的視力測(cè)試一樣,重要的是要知道自動(dòng)駕駛汽車系統(tǒng)可以發(fā)現(xiàn)危險(xiǎn)并做出相應(yīng)的反應(yīng)——無(wú)論問(wèn)題有多小或多遠(yuǎn)。
傳統(tǒng)的二維攝像頭系統(tǒng)和三維傳感器,如 LiDAR(光檢測(cè)和測(cè)距),可能不足以實(shí)現(xiàn)完全的可靠性和安全性,谷歌和 Alphabet 的自動(dòng)駕駛汽車子公司 Waymo 的一個(gè)團(tuán)隊(duì)研究了第四維: 4D-Net,一種對(duì)象檢測(cè)方法,將二維和三維數(shù)據(jù)與第四維時(shí)間融合在一起,聲稱性能顯著提高。
時(shí)間足夠
谷歌研究科學(xué)家和論文合著者 AJ Piergiovanni 和 Anelia Angelova 在一份關(guān)于工作。“我們還引入了一種動(dòng)態(tài)連接學(xué)習(xí)方法,該方法通過(guò)跨兩種特征表示執(zhí)行連接學(xué)習(xí)來(lái)整合來(lái)自場(chǎng)景的 4D 信息?!?/p>
4D-Net 方法源于一個(gè)簡(jiǎn)單的觀察:大多數(shù)配備傳感器的現(xiàn)代車輛包括二維和三維傳感器,通常采用多個(gè)攝像頭模塊和 LiDAR 的形式,數(shù)據(jù)是在一段時(shí)間內(nèi)收集的——但是很少有人努力將所有內(nèi)容集中在一個(gè)地方并作為一個(gè)整體進(jìn)行處理。
4D-Net 系統(tǒng)旨在通過(guò)將二維相機(jī)圖像與 3D 點(diǎn)云數(shù)據(jù)相結(jié)合來(lái)提高遠(yuǎn)距離物體識(shí)別的準(zhǔn)確性——所有這些數(shù)據(jù)都被收集起來(lái)以捕捉運(yùn)動(dòng)。
4D-Net 解決了這一差距,將 3D 點(diǎn)云數(shù)據(jù)與可見光相機(jī)圖像混合,同時(shí)通過(guò)處理在設(shè)定時(shí)間段內(nèi)捕獲的一系列數(shù)據(jù)來(lái)混合時(shí)間元素。其成功的秘訣:一種新穎的學(xué)習(xí)技術(shù),它可以自主地發(fā)現(xiàn)和建立數(shù)據(jù)之間的聯(lián)系,在不同的層次上動(dòng)態(tài)地融合它,以便單獨(dú)提高任何數(shù)據(jù)饋送的性能。
“時(shí)間圖像信息量很大,并且與靜止圖像和 PCiT [時(shí)間點(diǎn)云] 相輔相成,”研究人員解釋了該方法的好處?!笆聦?shí)上,對(duì)于具有挑戰(zhàn)性的檢測(cè)案例,運(yùn)動(dòng)可能是一個(gè)非常有力的線索。雖然可以在 3D 中捕獲運(yùn)動(dòng),但純粹基于 PC [點(diǎn)云] 的方法可能會(huì)因?yàn)閭鞲邢∈栊远e(cuò)過(guò)此類信號(hào)'’——順便說(shuō)一句,同樣的問(wèn)題意味著 LiDAR 傳感器可能會(huì)錯(cuò)過(guò)遠(yuǎn)處或小的物體,但在可見光攝像系統(tǒng)或駕駛員的肉眼上拾取。
機(jī)器學(xué)習(xí)時(shí)間
為了處理這兩種類型的數(shù)據(jù),團(tuán)隊(duì)轉(zhuǎn)向一系列預(yù)處理步驟。3D 點(diǎn)云數(shù)據(jù)通過(guò) PointPillars 運(yùn)行,PointPillars 是一種用于將數(shù)據(jù)轉(zhuǎn)換為偽圖像的系統(tǒng),可以使用為二維數(shù)據(jù)設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò) (CNN) 進(jìn)行進(jìn)一步處理,每個(gè)點(diǎn)添加一個(gè)時(shí)間指示器以創(chuàng)建包括運(yùn)動(dòng)在內(nèi)的更密集的表示。還使用了轉(zhuǎn)換為固定大小的表示,有效地對(duì)點(diǎn)云進(jìn)行二次采樣——這種方法在數(shù)據(jù)稀疏的地方使點(diǎn)云變密,在數(shù)據(jù)密集的地方使其稀疏,從而提高遠(yuǎn)距離的性能。
與此同時(shí),二維相機(jī)數(shù)據(jù)通過(guò) Tiny Video Networks 處理成特征圖,然后投影數(shù)據(jù)以將 3D 點(diǎn)與 2D 圖像上的對(duì)應(yīng)點(diǎn)對(duì)齊——這一過(guò)程假設(shè)“校準(zhǔn)和同步傳感器”。對(duì)于位于車輛攝像頭視野之外的點(diǎn)云數(shù)據(jù),應(yīng)用零向量。
使用多種分辨率的圖像和視頻饋送的 4D-Net 系統(tǒng)變體被證明是理想的,在基準(zhǔn)測(cè)試中比單饋送變體提供額外的精度增益。
然而,4D-Net 系統(tǒng)真正聰明的部分在于其連接架構(gòu)搜索的形式——它能夠從融合數(shù)據(jù)中提取最多、最合適的信息。一次性輕量級(jí)可微架構(gòu)搜索可在 3D 和時(shí)間中找到相關(guān)信息,并將其連接到兩種不同的傳感模式 - 并學(xué)習(xí)兩個(gè)傳感器在不同抽象級(jí)別的特征表示組合。
“[This] 非常強(qiáng)大!“該團(tuán)隊(duì)解釋說(shuō):“因?yàn)樗试S學(xué)習(xí)不同級(jí)別的特征抽象和不同特征來(lái)源之間的關(guān)系。為了進(jìn)一步調(diào)整自動(dòng)駕駛汽車的方法,該團(tuán)隊(duì)根據(jù)自我注意機(jī)制的概念將連接修改為動(dòng)態(tài)的,允許網(wǎng)絡(luò)動(dòng)態(tài)選擇特定的可見光數(shù)據(jù)塊進(jìn)行信息提取——這意味著它可以學(xué)習(xí)如何和在哪里根據(jù)可變輸入選擇特征。
令人印象深刻的結(jié)果
測(cè)試系統(tǒng)的單流和多流變體,后者以靜態(tài)圖像和以不同分辨率運(yùn)行的視頻饋送形式引入額外的輸入流,該團(tuán)隊(duì)聲稱與競(jìng)爭(zhēng)對(duì)手的狀態(tài)相比取得了一些令人印象深刻的收益-最先進(jìn)的方法。
針對(duì) Waymo 開放數(shù)據(jù)集進(jìn)行測(cè)試,4D-Net 提高了所有測(cè)試競(jìng)爭(zhēng)對(duì)手方法的平均精度 (AP)。雖然平均而言,它的性能被證明在較短的距離上較弱,但據(jù)報(bào)道,它識(shí)別更遠(yuǎn)物體的能力——尤其是 50 米以上的范圍——是無(wú)與倫比的,尤其是在多流模式下運(yùn)行時(shí)。
該團(tuán)隊(duì)的實(shí)驗(yàn)表明,4D-Net 在中遠(yuǎn)距離與競(jìng)爭(zhēng)對(duì)手的方法相比有顯著的準(zhǔn)確度提升,盡管在較短的檢測(cè)距離下準(zhǔn)確度有所下降。
“我們展示了改進(jìn)的最先進(jìn)性能和具有競(jìng)爭(zhēng)力的推理運(yùn)行時(shí)間。”該團(tuán)隊(duì)總結(jié)道:“盡管及時(shí)使用了 4D 傳感和兩種模式。在不失一般性的情況下,相同的方法可以擴(kuò)展到其他 RGB 圖像流,例如,為高度遮擋的對(duì)象提供關(guān)鍵信息的側(cè)攝像頭,或用于 PC [點(diǎn)云] 或圖像的各種可學(xué)習(xí)特征表示,或其他傳感器?!?/p>
研究人員建議,4D-Net 方法也可以用于自動(dòng)駕駛領(lǐng)域之外,只要需要通過(guò)自動(dòng)對(duì)齊音頻、視頻、文本和圖像數(shù)據(jù)來(lái)捕獲同一領(lǐng)域的不同方面。
該團(tuán)隊(duì)的工作在 2021 年計(jì)算機(jī)視覺國(guó)際會(huì)議 (ICCV) 上進(jìn)行了介紹,并已在開放獲取條款下提供。Google AI 博客上提供了 AJ Piergiovanni 和 Anelia Angelova 的支持性文章。研究人員已承諾在開源許可下提供他們的代碼,但在撰寫本文時(shí)尚未發(fā)布。

