

一種使用數(shù)小時視頻和強化學(xué)習(xí)元素的方法可以在沒有完整的環(huán)境地圖的情況下引導(dǎo)機器人車輛近兩英里。
使用目的地的圖像作為參考,在這種情況下,場地另一邊的房子,以及如何在各種地形上進(jìn)行陸路導(dǎo)航的“先驗”,從數(shù)小時的拍攝視頻中收集,無人駕駛車輛幾乎可以導(dǎo)航自己走兩英里就可以達(dá)到目標(biāo)。
機器人和自動駕駛汽車有一個非常大的共同挑戰(zhàn),那就是如何駕馭世界。通常,人工智能將這項任務(wù)作為如何繪制周圍環(huán)境的問題來處理,以便在機器人或汽車穿過該地形之前構(gòu)建場景幾何形狀的精確概覽。
可能有更簡單的方法。
今年2月,美國加州大學(xué)伯克利分校的學(xué)者在 arXiv 上發(fā)表的一篇論文中,輪式機器人能夠在郊區(qū)地形上行駛數(shù)公里。機器人堅持路徑并躲避以前看不見的障礙。重要的是它不會像其他一些方法那樣映射其環(huán)境,例如在自動駕駛?cè)斯ぶ悄艹绦蛑小?/p>
相反,它依賴于從之前運行的 30 小時視頻中提取的啟發(fā)式方法和一些地形的俯視圖,以創(chuàng)建一個改進(jìn)的沿途站點相互關(guān)聯(lián)的示意圖,而不需要完整的地圖。這項名為“ViKiNG:具有地理提示的基于視覺的公里級導(dǎo)航”的研究由博士撰寫。候選人 Dhruv Shah 和加州大學(xué)伯克利分校助理教授 Sergey Levine。
多年來,Levine一直致力于與谷歌合作將人工智能引入機器人技術(shù)。這項工作的許多關(guān)鍵發(fā)現(xiàn)都與 Levine 去年在一篇題為“如何訓(xùn)練你的機器人”的論文中相關(guān)。那篇論文重點關(guān)注所謂“強化學(xué)習(xí)”的發(fā)現(xiàn),這是一種訓(xùn)練神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí) AI 形式朝著一個目標(biāo)分階段前進(jìn)。
Shah 和 Levine 的最新作品 ViKiNG 與 RL 有著重要的聯(lián)系。
ViKiNG 建立在之前的系統(tǒng)之上,稱為“RECON”,代表Shah 和 Levine 去年推出的“結(jié)果驅(qū)動導(dǎo)航的快速探索控制器” 。
RECON 的訓(xùn)練是讓輪式機器人(Clearpath Robotics 制造的Jackal 無人駕駛地面車輛)在 18 個月的時間里在停車場和田野等多個環(huán)境中“隨機行走”,通過安裝的 RGB 攝像頭收集數(shù)小時的視頻,激光雷達(dá)和 GPS。
ViKiNG 建立在其前身程序 RECON 的基礎(chǔ)上,以高空衛(wèi)星或高空景觀示意圖數(shù)據(jù)的形式添加“提示”。
RECON 通過壓縮和解壓縮圖像數(shù)據(jù)的卷積網(wǎng)絡(luò)學(xué)習(xí)了所謂的“導(dǎo)航先驗”,即所謂的“信息瓶頸”,這是 Naftali Tishby 及其同事在 2000 年引入的一種處理信號的方法。
RECON 的這種方法開發(fā)了軟件通過壓縮圖像然后回憶突出的內(nèi)容來良好表示視覺環(huán)境的能力。在測試階段,RECON 會看到一個目標(biāo)的圖像,比如說一個特定的建筑物,并且必須在飛行中弄清楚如何導(dǎo)航到那個新的地方。
RECON 沿著通往該目標(biāo)的路徑構(gòu)建了一個步驟圖,這是一種即興地圖。使用這些技術(shù),Jackal 機器人能夠在其從未遇到過的新環(huán)境中導(dǎo)航至 80 米遠(yuǎn)的目標(biāo)。在所有其他現(xiàn)有的機器人導(dǎo)航方法都未能達(dá)到目標(biāo)的情況下,它能夠做到這一點。
在 ViKiNG 中,Shah 和 Levine 以一種特定方式擴展了 RECON:提示。他們給豺狼軟件提供新地形的衛(wèi)星圖像或高空地圖。
正如 Shah 和 Levine 所寫,“與執(zhí)行不知情搜索的 RECON 相比,ViKiNG 以近似 GPS 坐標(biāo)和高空地圖的形式結(jié)合了地理提示。
“這使 ViKiNG 能夠達(dá)到遠(yuǎn)距離目標(biāo),比 RECON 報告的最遠(yuǎn)目標(biāo)遠(yuǎn)達(dá) 25 倍,并且在探索新環(huán)境時達(dá)到目標(biāo)的速度比 RECON 快 15 倍。”
ViKiNG 系統(tǒng)方法大綱。從圖像中采樣以及提示,允許系統(tǒng)動態(tài)構(gòu)建本地拓?fù)鋱D,以繪制到目的地的路線圖。
ViKiNG 計劃增加了隨機行走的攝像機觀察訓(xùn)練數(shù)據(jù),增加了 12 小時的視頻,這些視頻來自“遙控”旅行,人類引導(dǎo)豺狼沿著人行道或遠(yuǎn)足小徑等路徑建立那些先前的例子。用于處理所有訓(xùn)練數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)相當(dāng)單調(diào),即熟悉的 MobileNet 卷積神經(jīng)網(wǎng)絡(luò)。
這一次,配備 ViKiNG 的 Jackal 遠(yuǎn)遠(yuǎn)超出了 RECON 的 80 米,從起點到目的地的距離約為 3 公里,或近 2 英里。
在該項目的博客頁面上展示的視頻中,Shah 和 Levine 展示了帶有 ViKiNG 的 Jackal 如何計算出如何繞過以前未知的障礙物,例如停放的車輛擋住了它的路徑。一個配套視頻解釋了這項工作,您可以在這篇文章的底部查看。
RECON 明確采用了強化學(xué)習(xí)的元素。同樣,ViKiNG 也以某種方式借用。當(dāng)被問及與 RL 的聯(lián)系時,Levine 在一封電子郵件中告訴ZDNet,“我將 ViKiNG 描述為一種強化學(xué)習(xí)方法,其之上有更高級別的規(guī)劃器?!?/p>
Levine解釋說,關(guān)鍵在于將用于實時導(dǎo)航的低級學(xué)習(xí)控制方法與類似于 RL 的高級規(guī)劃相結(jié)合。
正如萊文所描述的, 顯式的高級規(guī)劃提供了處理非常長的視野的能力,因此查看該方法的一個好方法是使用無模型 [RL] 技術(shù)來處理本地導(dǎo)航的低級問題(例如,如何駕駛一棵樹)規(guī)劃如何繪制通往遙遠(yuǎn)目標(biāo)的路徑的高級問題。我認(rèn)為這實際上是一種非常自然的契合——就像一個開車的人可能不會仔細(xì)考慮他們所做的每一個轉(zhuǎn)彎,但會在他們的腦海中做一些明確的計劃來決定走哪條路線去他們的目的地,也許是推理關(guān)于地標(biāo)作為計劃中的“節(jié)點”。
Levine 認(rèn)為,自動駕駛汽車等更復(fù)雜的導(dǎo)航具有高度相關(guān)性。他說,ViKiNG 是“人行道送貨機器人”的開始。
Levine說:“但是自動駕駛或其他風(fēng)險更高的任務(wù)(甚至是必須處理密集交通的真正人行道交付)必須有額外的機制來處理安全和約束,目前的方法還沒有直接處理?!?/p>
Levine提出,在安全等方面的額外工作可以包括人類作為“副駕駛”的明確指示,以引導(dǎo)機器人遠(yuǎn)離傷害。它還可以包括模仿將灌輸一些保障措施的現(xiàn)有政策。
然而,Levine說要處理高速行駛的車輛以及亂穿馬路的行人等看不見的因素,需要做更多的研究。當(dāng)然,為此類系統(tǒng)提供嚴(yán)格的安全保證是一個主要的開放性問題,我確實認(rèn)為需要做更多的工作才能使這種系統(tǒng)對于全尺寸自動駕駛汽車足夠安全。

