

陸軍研究人員使用人類教學(xué)來改善自主系統(tǒng)中的導(dǎo)航
將來,可能只需要一名士兵和一個(gè)游戲控制器就可以教機(jī)器人如何超越人類。
在美國(guó)陸軍作戰(zhàn)能力發(fā)展司令部的陸軍研究實(shí)驗(yàn)室和得克薩斯大學(xué)奧斯汀分校,研究人員設(shè)計(jì)了一種算法,該算法允許自動(dòng)地面車輛通過觀察人類駕駛來改善其現(xiàn)有的導(dǎo)航系統(tǒng)。該團(tuán)隊(duì)在陸軍的實(shí)驗(yàn)車輛Clearpath Jackal上測(cè)試了其方法,即通過演示進(jìn)行自適應(yīng)規(guī)劃器參數(shù)學(xué)習(xí)(Adaptive Planner Parameter Learning From Demonstration,APPLD)。
陸軍研究員加勒特·沃內(nèi)爾博士說:“使用APPLD這種方法,現(xiàn)有訓(xùn)練設(shè)施中的現(xiàn)役士兵將能夠通過簡(jiǎn)單地正常操作車輛即可改進(jìn)自主導(dǎo)航系統(tǒng)?!?nbsp;“像這樣的技術(shù)將對(duì)陸軍設(shè)計(jì)和部署能夠在越野環(huán)境中自動(dòng)導(dǎo)航的下一代戰(zhàn)斗車輛的計(jì)劃做出重要貢獻(xiàn)?!?/p>
研究人員將演示算法和更多經(jīng)典的自主導(dǎo)航系統(tǒng)中的機(jī)器學(xué)習(xí)融合在一起。APPLD并沒有完全取代經(jīng)典系統(tǒng),而是學(xué)習(xí)如何調(diào)整現(xiàn)有系統(tǒng)使其表現(xiàn)得更像人類演示。Warnell說,這種范例使部署的系統(tǒng)可以保留傳統(tǒng)導(dǎo)航系統(tǒng)的所有優(yōu)點(diǎn),例如最優(yōu)性,可解釋性和安全性,同時(shí)還可以使系統(tǒng)靈活并適應(yīng)新環(huán)境。
Warnell說:“ 使用日常的Xbox無線手柄提供的一次人類駕駛演示,使APPLD能夠?qū)W習(xí)如何根據(jù)特定的本地環(huán)境以不同的方式調(diào)整車輛現(xiàn)有的自動(dòng)導(dǎo)航系統(tǒng)?!?nbsp;“例如,在狹窄的走廊中,駕駛員放慢速度并小心駕駛。觀察到這種行為后,自動(dòng)駕駛系統(tǒng)學(xué)會(huì)了在類似的環(huán)境中也降低其最大速度并增加其計(jì)算預(yù)算。這最終使車輛能夠成功在以前失敗的其他狹窄走廊中自主導(dǎo)航。”
奧斯汀機(jī)器人聯(lián)盟的主席兼教授彼得·斯通博士說:“ APPLD是奧斯汀與陸軍研究實(shí)驗(yàn)室之間獨(dú)特的合作促進(jìn)了研究成果不斷增長(zhǎng)的又一個(gè)案例?!?nbsp;“通過將沃內(nèi)爾博士全職安排在奧斯汀分校,我們能夠迅速發(fā)現(xiàn)并解決尖端科學(xué)的研究問題?!?/p>
團(tuán)隊(duì)的實(shí)驗(yàn)表明,經(jīng)過培訓(xùn),與傳統(tǒng)系統(tǒng)相比,APPLD系統(tǒng)能夠更快地導(dǎo)航測(cè)試環(huán)境,并減少故障。另外,受過訓(xùn)練的APPLD系統(tǒng)通常比受過訓(xùn)練的人在環(huán)境中的導(dǎo)航更快。經(jīng)過同行評(píng)審的期刊《IEEE機(jī)器人與自動(dòng)化快報(bào)》發(fā)表了該團(tuán)隊(duì)的工作:APPLD:從演示中學(xué)習(xí)自適應(yīng)規(guī)劃器參數(shù)。
“從機(jī)器學(xué)習(xí)的角度來看,APPLD與試圖從頭開始學(xué)習(xí)整個(gè)導(dǎo)航系統(tǒng)的所謂的端到端學(xué)習(xí)系統(tǒng)形成了鮮明的對(duì)比?!?nbsp;“這些方法往往需要大量數(shù)據(jù),并且可能導(dǎo)致行為既不安全也不穩(wěn)健。APPLD利用了經(jīng)過精心設(shè)計(jì)的控制系統(tǒng)部分,同時(shí)將其機(jī)器學(xué)習(xí)成果集中在參數(shù)調(diào)整過程上,這就是通常是根據(jù)一個(gè)人的直覺來完成的?!?/p>
APPLD代表了一種新的范例,在這種范例中,不具備機(jī)器人專業(yè)知識(shí)的人可以在各種環(huán)境中幫助訓(xùn)練和改善自動(dòng)駕駛汽車導(dǎo)航。而不是由工程師組成的小型團(tuán)隊(duì)試圖在少數(shù)測(cè)試環(huán)境中手動(dòng)調(diào)整導(dǎo)航系統(tǒng),實(shí)際上,數(shù)量不受限制的用戶將能夠向系統(tǒng)提供所需的數(shù)據(jù),以將其自身調(diào)整至不受限制的環(huán)境。
陸軍研究員喬納森·芬克(Jonathan Fink)博士說:“通常,對(duì)于每個(gè)新的部署環(huán)境,必須手動(dòng)重新調(diào)整當(dāng)前的自主導(dǎo)航系統(tǒng)。” “此過程非常困難,必須由接受過機(jī)器人技術(shù)培訓(xùn)的人員來完成,并且需要反復(fù)試驗(yàn),直到找到正確的系統(tǒng)設(shè)置為止。相反,APPLD通過觀察人工駕駛來自動(dòng)調(diào)整系統(tǒng)系統(tǒng),任何人只要有視頻游戲控制器的經(jīng)驗(yàn)就可以做。在部署過程中,APPLD還允許系統(tǒng)隨著環(huán)境的變化實(shí)時(shí)地重新調(diào)整自身?!?/p>
陸軍對(duì)下一代作戰(zhàn)車輛進(jìn)行現(xiàn)代化改造的重點(diǎn)包括設(shè)計(jì)可以在越野部署環(huán)境中自主導(dǎo)航的可選載人作戰(zhàn)車輛和機(jī)器人作戰(zhàn)車輛。盡管士兵可以駕駛當(dāng)前的戰(zhàn)車在這些環(huán)境中導(dǎo)航,但對(duì)于先進(jìn)的自主導(dǎo)航系統(tǒng)而言,環(huán)境仍然充滿挑戰(zhàn)。APPLD和類似方法為陸軍改善現(xiàn)有的自主導(dǎo)航能力提供了新的潛在途徑。
除了與陸軍直接相關(guān)之外,APPLD還為彌合傳統(tǒng)工程方法與新興機(jī)器學(xué)習(xí)技術(shù)之間的鴻溝提供了機(jī)會(huì),從而在現(xiàn)實(shí)世界中創(chuàng)建了強(qiáng)大,自適應(yīng)和多功能的移動(dòng)機(jī)器人。
為了繼續(xù)這項(xiàng)研究,研究小組將在各種戶外環(huán)境中測(cè)試APPLD系統(tǒng),雇用士兵駕駛員,并嘗試使用多種現(xiàn)有的自動(dòng)導(dǎo)航方法。此外,研究人員將調(diào)查是否包括其他傳感器信息(例如相機(jī)圖像)是否可以導(dǎo)致學(xué)習(xí)更復(fù)雜的行為,例如調(diào)整導(dǎo)航系統(tǒng)以在各種條件下(例如在不同地形或存在其他物體的情況下)操作。
參考文獻(xiàn):X. Xiao, B. Liu, G. Warnell, J. Fink and P. Stone, "APPLD: Adaptive Planner Parameter Learning From Demonstration," in IEEE Robotics and Automation Letters, vol. 5, no. 3, pp. 4541-4547, July 2020, doi: 10.1109/LRA.2020.3002217.
Clearpath Jackal 無人車是一個(gè)小型,快速的入門級(jí)現(xiàn)場(chǎng)機(jī)器人研究平臺(tái)。它具有與ROS完全集成的機(jī)載計(jì)算機(jī),GPS和IMU,具有開箱即用的自主功能。Jackal最大速度可達(dá)2m/s,線加速度可達(dá)20m/s2。負(fù)載20kg,最大爬坡角度可達(dá)40°。

