士兵們可以教未來的機(jī)器人如何勝過人類

2020-09-07 11:59 性質(zhì)：轉(zhuǎn)載作者：京天機(jī)器人來源：京天機(jī)器人

免責(zé)聲明：AGV網(wǎng)（m.wnmc.org.cn)尊重合法版權(quán)，反對(duì)侵權(quán)盜版。（凡是我網(wǎng)所轉(zhuǎn)載之文章，文中所有文字內(nèi)容和圖片視頻之知識(shí)產(chǎn)權(quán)均系原作者和機(jī)構(gòu)所有。文章內(nèi)容觀點(diǎn)，與本網(wǎng)無關(guān)。如有需要?jiǎng)h除，敬請(qǐng)來電商榷?。?/div>

陸軍研究人員使用人類教學(xué)來改善自主系統(tǒng)中的導(dǎo)航將來，可能只需要一名士兵和一個(gè)游戲控制器就可以教機(jī)器人如何超越人類。在美國(guó)陸軍作戰(zhàn)能力發(fā)展司令部的陸軍研究實(shí)驗(yàn)室和得克薩斯大學(xué)奧斯汀分校...

陸軍研究人員使用人類教學(xué)來改善自主系統(tǒng)中的導(dǎo)航

將來，可能只需要一名士兵和一個(gè)游戲控制器就可以教機(jī)器人如何超越人類。

在美國(guó)陸軍作戰(zhàn)能力發(fā)展司令部的陸軍研究實(shí)驗(yàn)室和得克薩斯大學(xué)奧斯汀分校，研究人員設(shè)計(jì)了一種算法，該算法允許自動(dòng)地面車輛通過觀察人類駕駛來改善其現(xiàn)有的導(dǎo)航系統(tǒng)。該團(tuán)隊(duì)在陸軍的實(shí)驗(yàn)車輛Clearpath Jackal上測(cè)試了其方法，即通過演示進(jìn)行自適應(yīng)規(guī)劃器參數(shù)學(xué)習(xí)（Adaptive Planner Parameter Learning From Demonstration，APPLD）。

陸軍研究員加勒特·沃內(nèi)爾博士說：“使用APPLD這種方法，現(xiàn)有訓(xùn)練設(shè)施中的現(xiàn)役士兵將能夠通過簡(jiǎn)單地正常操作車輛即可改進(jìn)自主導(dǎo)航系統(tǒng)?！?nbsp;“像這樣的技術(shù)將對(duì)陸軍設(shè)計(jì)和部署能夠在越野環(huán)境中自動(dòng)導(dǎo)航的下一代戰(zhàn)斗車輛的計(jì)劃做出重要貢獻(xiàn)?！?/p>

研究人員將演示算法和更多經(jīng)典的自主導(dǎo)航系統(tǒng)中的機(jī)器學(xué)習(xí)融合在一起。APPLD并沒有完全取代經(jīng)典系統(tǒng)，而是學(xué)習(xí)如何調(diào)整現(xiàn)有系統(tǒng)使其表現(xiàn)得更像人類演示。Warnell說，這種范例使部署的系統(tǒng)可以保留傳統(tǒng)導(dǎo)航系統(tǒng)的所有優(yōu)點(diǎn)，例如最優(yōu)性，可解釋性和安全性，同時(shí)還可以使系統(tǒng)靈活并適應(yīng)新環(huán)境。

Warnell說：“ 使用日常的Xbox無線手柄提供的一次人類駕駛演示，使APPLD能夠?qū)W習(xí)如何根據(jù)特定的本地環(huán)境以不同的方式調(diào)整車輛現(xiàn)有的自動(dòng)導(dǎo)航系統(tǒng)?！?nbsp;“例如，在狹窄的走廊中，駕駛員放慢速度并小心駕駛。觀察到這種行為后，自動(dòng)駕駛系統(tǒng)學(xué)會(huì)了在類似的環(huán)境中也降低其最大速度并增加其計(jì)算預(yù)算。這最終使車輛能夠成功在以前失敗的其他狹窄走廊中自主導(dǎo)航。”

奧斯汀機(jī)器人聯(lián)盟的主席兼教授彼得·斯通博士說：“ APPLD是奧斯汀與陸軍研究實(shí)驗(yàn)室之間獨(dú)特的合作促進(jìn)了研究成果不斷增長(zhǎng)的又一個(gè)案例?！?nbsp;“通過將沃內(nèi)爾博士全職安排在奧斯汀分校，我們能夠迅速發(fā)現(xiàn)并解決尖端科學(xué)的研究問題?！?/p>

團(tuán)隊(duì)的實(shí)驗(yàn)表明，經(jīng)過培訓(xùn)，與傳統(tǒng)系統(tǒng)相比，APPLD系統(tǒng)能夠更快地導(dǎo)航測(cè)試環(huán)境，并減少故障。另外，受過訓(xùn)練的APPLD系統(tǒng)通常比受過訓(xùn)練的人在環(huán)境中的導(dǎo)航更快。經(jīng)過同行評(píng)審的期刊《IEEE機(jī)器人與自動(dòng)化快報(bào)》發(fā)表了該團(tuán)隊(duì)的工作：APPLD：從演示中學(xué)習(xí)自適應(yīng)規(guī)劃器參數(shù)。

“從機(jī)器學(xué)習(xí)的角度來看，APPLD與試圖從頭開始學(xué)習(xí)整個(gè)導(dǎo)航系統(tǒng)的所謂的端到端學(xué)習(xí)系統(tǒng)形成了鮮明的對(duì)比?！?nbsp;“這些方法往往需要大量數(shù)據(jù)，并且可能導(dǎo)致行為既不安全也不穩(wěn)健。APPLD利用了經(jīng)過精心設(shè)計(jì)的控制系統(tǒng)部分，同時(shí)將其機(jī)器學(xué)習(xí)成果集中在參數(shù)調(diào)整過程上，這就是通常是根據(jù)一個(gè)人的直覺來完成的?！?/p>

APPLD代表了一種新的范例，在這種范例中，不具備機(jī)器人專業(yè)知識(shí)的人可以在各種環(huán)境中幫助訓(xùn)練和改善自動(dòng)駕駛汽車導(dǎo)航。而不是由工程師組成的小型團(tuán)隊(duì)試圖在少數(shù)測(cè)試環(huán)境中手動(dòng)調(diào)整導(dǎo)航系統(tǒng)，實(shí)際上，數(shù)量不受限制的用戶將能夠向系統(tǒng)提供所需的數(shù)據(jù)，以將其自身調(diào)整至不受限制的環(huán)境。

陸軍研究員喬納森·芬克（Jonathan Fink）博士說：“通常，對(duì)于每個(gè)新的部署環(huán)境，必須手動(dòng)重新調(diào)整當(dāng)前的自主導(dǎo)航系統(tǒng)。” “此過程非常困難，必須由接受過機(jī)器人技術(shù)培訓(xùn)的人員來完成，并且需要反復(fù)試驗(yàn)，直到找到正確的系統(tǒng)設(shè)置為止。相反，APPLD通過觀察人工駕駛來自動(dòng)調(diào)整系統(tǒng)系統(tǒng)，任何人只要有視頻游戲控制器的經(jīng)驗(yàn)就可以做。在部署過程中，APPLD還允許系統(tǒng)隨著環(huán)境的變化實(shí)時(shí)地重新調(diào)整自身?！?/p>

陸軍對(duì)下一代作戰(zhàn)車輛進(jìn)行現(xiàn)代化改造的重點(diǎn)包括設(shè)計(jì)可以在越野部署環(huán)境中自主導(dǎo)航的可選載人作戰(zhàn)車輛和機(jī)器人作戰(zhàn)車輛。盡管士兵可以駕駛當(dāng)前的戰(zhàn)車在這些環(huán)境中導(dǎo)航，但對(duì)于先進(jìn)的自主導(dǎo)航系統(tǒng)而言，環(huán)境仍然充滿挑戰(zhàn)。APPLD和類似方法為陸軍改善現(xiàn)有的自主導(dǎo)航能力提供了新的潛在途徑。

除了與陸軍直接相關(guān)之外，APPLD還為彌合傳統(tǒng)工程方法與新興機(jī)器學(xué)習(xí)技術(shù)之間的鴻溝提供了機(jī)會(huì)，從而在現(xiàn)實(shí)世界中創(chuàng)建了強(qiáng)大，自適應(yīng)和多功能的移動(dòng)機(jī)器人。

為了繼續(xù)這項(xiàng)研究，研究小組將在各種戶外環(huán)境中測(cè)試APPLD系統(tǒng)，雇用士兵駕駛員，并嘗試使用多種現(xiàn)有的自動(dòng)導(dǎo)航方法。此外，研究人員將調(diào)查是否包括其他傳感器信息（例如相機(jī)圖像）是否可以導(dǎo)致學(xué)習(xí)更復(fù)雜的行為，例如調(diào)整導(dǎo)航系統(tǒng)以在各種條件下（例如在不同地形或存在其他物體的情況下）操作。

參考文獻(xiàn)：X. Xiao, B. Liu, G. Warnell, J. Fink and P. Stone, "APPLD: Adaptive Planner Parameter Learning From Demonstration," in IEEE Robotics and Automation Letters, vol. 5, no. 3, pp. 4541-4547, July 2020, doi: 10.1109/LRA.2020.3002217.

Clearpath Jackal 無人車是一個(gè)小型，快速的入門級(jí)現(xiàn)場(chǎng)機(jī)器人研究平臺(tái)。它具有與ROS完全集成的機(jī)載計(jì)算機(jī)，GPS和IMU，具有開箱即用的自主功能。Jackal最大速度可達(dá)2m/s，線加速度可達(dá)20m/s2。負(fù)載20kg，最大爬坡角度可達(dá)40°。